数据科学总览
why
- 为什么要用数据来分析、计算、决策
- 可量化性
- 数学是量化事物的唯一方式
- 客观性
- 避免主观判断错误
- 可量化性
how
入行建议(按重要性排序):
- 养成频繁使用搜索引擎的习惯:
- 优先级:Google、Bing、百度
- 目的:养成强大的自学能力, 做到现学现卖
- 良好的生活习惯:
- 包括:早睡早起、按时吃饭、经常运动、不碰烟酒
- 目的:保持大脑在最灵活的状态
- 适应英语技术内容阅读
- 时常复习大学数学课程
- 自备Linux/Windows两种操作系统:
- 实现方式包括:虚拟机、双系统、双主机等
基本内容
- SQL
- 多种脚本语言:
- 必备:Python
- 加快Linux上的工作效率:Shell
- 其他可选:R、Matlab、SAS等
- Python常用数据处理框架:
- 矩阵类:Numpy
- 表格数据类:Pandas
- 图像类:OpenCV、dlib等
- 文本类:jieba等
- Linux系统常用命令
- 掌握Office三项:
- 包括:Excel、Word、PPT
进阶内容
- 编译语言:
- 包括:Java、Scala、C++、C等
- 目的:熟悉数据采集代码、熟悉Hadoop生态圈组件运行机制、必要时及时修复线上服务、编写高性能运算模块等
- 数据模型:
- 机器学习:
- 原理:
- 有监督学习:
- 广义线性模型及其延伸:
- 包括:Linear Regression、Logisitic Regression、MLP、CNN、RNN等
- 树模型:
- 包括:CART、RandonForest、GBDT、XGBoost等
- 概率图模型
- 广义线性模型及其延伸:
- 无监督学习:
- 聚类
- 关联规则
- 强化学习
- 演化学习:
- 包括:模拟退火算法、遗传算法、蚁群算法
- 有监督学习:
- 机器学习框架:
- 机器学习:
- 包括:sklearn、Spark ML、XGBoost等
- 深度学习:
- 包括:Tensorflow、Keras、PyTorch等
- 机器学习:
- 原理:
- 机器学习:
- Hadoop生态圈:
- 包括:HDFS、Hive、Spark、Flink等
- 前端:
- 包括:JS、HTML、CSS等、以及node.js
- 目的:更好理解爬虫、前端模型部署、前端数据埋点、前端数据可视化等
- 其他工具:
- 代码管理:
- git、svn等
- 文档编辑:
- MarkDown、LaTex等
- 流程图:
- ProcessOn、Visio等
- 接口调用、检查等:
- 单次接口调用检查:
- PostMan、Python-Request、curl等
- 压测:
- Jmeter等
- 单次接口调用检查:
- 虚拟化部署:
- Docker
- 代码管理: