数据科学总览

数据科学总览

why

  • 为什么要用数据来分析、计算、决策
    • 可量化性
      • 数学是量化事物的唯一方式
    • 客观性
      • 避免主观判断错误

how

入行建议(按重要性排序):

  • 养成频繁使用搜索引擎的习惯:
    • 优先级:Google、Bing、百度
    • 目的:养成强大的自学能力, 做到现学现卖
  • 良好的生活习惯:
    • 包括:早睡早起、按时吃饭、经常运动、不碰烟酒
    • 目的:保持大脑在最灵活的状态
  • 适应英语技术内容阅读
  • 时常复习大学数学课程
  • 自备Linux/Windows两种操作系统:
    • 实现方式包括:虚拟机、双系统、双主机等

基本内容

  • SQL
  • 多种脚本语言:
    • 必备:Python
    • 加快Linux上的工作效率:Shell
    • 其他可选:R、Matlab、SAS等
  • Python常用数据处理框架:
    • 矩阵类:Numpy
    • 表格数据类:Pandas
    • 图像类:OpenCV、dlib等
    • 文本类:jieba等
  • Linux系统常用命令
  • 掌握Office三项:
    • 包括:Excel、Word、PPT

进阶内容

  • 编译语言:
    • 包括:Java、Scala、C++、C等
    • 目的:熟悉数据采集代码、熟悉Hadoop生态圈组件运行机制、必要时及时修复线上服务、编写高性能运算模块等
  • 数据模型:
    • 机器学习:
      • 原理:
        • 有监督学习:
          • 广义线性模型及其延伸:
            • 包括:Linear Regression、Logisitic Regression、MLP、CNN、RNN等
          • 树模型:
            • 包括:CART、RandonForest、GBDT、XGBoost等
          • 概率图模型
        • 无监督学习:
          • 聚类
          • 关联规则
        • 强化学习
        • 演化学习:
          • 包括:模拟退火算法、遗传算法、蚁群算法
      • 机器学习框架:
        • 机器学习:
          • 包括:sklearn、Spark ML、XGBoost等
        • 深度学习:
          • 包括:Tensorflow、Keras、PyTorch等
  • Hadoop生态圈:
    • 包括:HDFS、Hive、Spark、Flink等
  • 前端:
    • 包括:JS、HTML、CSS等、以及node.js
    • 目的:更好理解爬虫、前端模型部署、前端数据埋点、前端数据可视化等
  • 其他工具:
    • 代码管理:
      • git、svn等
    • 文档编辑:
      • MarkDown、LaTex等
    • 流程图:
      • ProcessOn、Visio等
    • 接口调用、检查等:
      • 单次接口调用检查:
        • PostMan、Python-Request、curl等
      • 压测:
        • Jmeter等
    • 虚拟化部署:
      • Docker
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值