数据科学总览

最新推荐文章于 2024-09-25 11:59:15 发布

CoderX10

最新推荐文章于 2024-09-25 11:59:15 发布

阅读量160

点赞数

文章标签：大数据算法

本文链接：https://blog.csdn.net/PythonX10/article/details/103535869

版权

why

入行建议（按重要性排序）：

基本内容

进阶内容

编译语言：
- 包括：Java、Scala、C++、C等
- 目的：熟悉数据采集代码、熟悉Hadoop生态圈组件运行机制、必要时及时修复线上服务、编写高性能运算模块等
数据模型：
- 机器学习：
  - 原理：
    - 有监督学习：
      - 广义线性模型及其延伸：
        包括：Linear Regression、Logisitic Regression、MLP、CNN、RNN等
      - 树模型：
        包括：CART、RandonForest、GBDT、XGBoost等
      - 概率图模型
    - 无监督学习：
      - 聚类
      - 关联规则
    - 强化学习
    - 演化学习：
      - 包括：模拟退火算法、遗传算法、蚁群算法
  - 机器学习框架：
    - 机器学习：
      - 包括：sklearn、Spark ML、XGBoost等
    - 深度学习：
      - 包括：Tensorflow、Keras、PyTorch等
Hadoop生态圈：
- 包括：HDFS、Hive、Spark、Flink等
前端：
- 包括：JS、HTML、CSS等、以及node.js
- 目的：更好理解爬虫、前端模型部署、前端数据埋点、前端数据可视化等
其他工具：
- 代码管理：
  - git、svn等
- 文档编辑：
  - MarkDown、LaTex等
- 流程图：
  - ProcessOn、Visio等
- 接口调用、检查等：
  - 单次接口调用检查：
    - PostMan、Python-Request、curl等
  - 压测：
    - Jmeter等
- 虚拟化部署：
  - Docker