Python学习线路

python学习

1.python的基本知识
2.python做数据分析的基本库:sklearn,Statsmodels,numpy,scipy,pandas
3.数据分析相关:数据抽取,清洗,转换,建模,分析,展示
4.完善还需用到的库:

  • matplotlib/snsborns:数据可视化展示
  • RPython:R集成库(统计分析更加专业)
  • nltk+jieba分词:文本挖掘和中文分词库
  • pyodbc:Python通过ODBC访问数据的接口库
  • Jython:Python通过JDBC访问数据的接口库
  • mysql-connector-python:MySQL官方驱动连接程序
    5.数据思维:《谁说菜鸟不会数据分析》,《数据化管理:洞悉零售及电子商务运营》,《数据挖掘与数据化运营实战思路、方法》
偏业务的数据算法工程师能力
  • 设定业务目标,比如整体的转化率,将目标分为各个阶段,并观察每个阶段。(分析外卖的整体转化率,可以划分为曝光、用户进入商家页、用户进入提交订单页,最后完成支付等几个环节分别观察效果,一旦哪个环节出了问题,可以快速定位解决问题)
  • 数据和特征决定了机器学习的上限,模型和特征只是逼近这个上限。在使用机器学习或深度模型时,必须从大数据(hive分布式结构的使用)中提取我们的训练数据,计算相应的特征,并分析特征与我们目标之间可能存在的关系。
  • 首先负责建立一整套产品的数据指标框架,比如说漏斗模型、留存率等,使用hive(掌握concat_ws,row_number,case…when,if,get_json_object等)和spark sql(掌握其运行的基本原理及一些常见问题的处理:1.处理数据倾斜;2.如何减少spark任务的空间占用,加速spark任务运行速度,spark作业在线上调用时,会占用公共资源,你任务占用的资源越多,别人占用的资源就越少,如果你运行的快,可以给别人的任务更多的空间。使用scala语言和java衔接)以及excel知识
  • 数据结构知识
  • 模型的积累和迁移能力:Transformer,bert,DIEN等新模型,不断跟进,了解模型为啥要这么做;在此基础上与业务相结合,针对业务可以想到一个可行的解决方案
  • PaperWeekly公众号,张俊林老师的推荐系统分享、王仲远师兄的知识图谱分享等。如果你没有机会参与这些公司内部的交流活动,那么如DataFun社区提供的免费讲座,可以多报名参加
  • 下面推荐一些资料帮你更好的进行复习吧:
    1、《统计学习方法》经典中的经典,建议至少读两遍!
    2、《百面机器学习》对一些面试常见问题进行了总结和梳理
    3、深度学习500问:https://github.com/scutan90/DeepLearning-500-questions/
    4、SVM:http://blog.pluskid.org/?page_id=683
    5、李宏毅深度学习课:https://www.bilibili.com/video/av9770302?from=search&seid=9066694202064136038
    6、李宏毅强化学习课:https://www.bilibili.com/video/av24724071?from=search&seid=11841282802558935758
    7、李宏毅机器学习课:https://www.bilibili.com/video/av35932863?from=search&seid=7464664329294734466
    8、线性代数的本质:https://www.bilibili.com/video/av44855426?from=search&seid=15873340646320697328
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值