1.人工智能的Pipeline

人工智能的Pipeline

  1. 数据清洗
    1. 清洗数据
    2. 处理数据
    3. 如何做特征工程,如何把数据做出优秀的训练集
    4. 影响后面机器学习应用,烂的数据集效果不好,质量不高
    5. ETL–Extract Transform Load
    6. Pandas/Numpy/MapReduce
  2. 数据库(数据仓库)
    1. Mysql/Redis/mongo
    2. Mysql/Postgres
    3. Hive 10亿辆车 聚类 --> 最后交给MapReduce做
    4. OLAP --HMASE
    5. spark
  3. 数据集市/数据挖掘/数据标注(50%时间)
    1. 如何生成我需要的精细的、优质的数据
    2. 数据挖掘
      1. 数据可视化
      2. 数据统计
      3. 特征工程
    3. 数据标注 (80%是监督学习/无监督学习也是为了监督学习)
      1. 自动化标注(没有人工就没有数据)
      2. 标注平台、节省人力
      3. 聚类等自动化
        1. 几乎不存在任何通用算法做自动化标注,一定是特定算法特定标注
        2. 算法人员花大量时间在标注上!
        3. 再标再跑
        4. 合理高效的标注
  4. 评测集合数据集的准备(数据Team的产出标准)
    1. Train Set——教科书、Validata-在线测验(帮助学习) | Test—期末考试
    2. 数据集市库、同一份数据,不同人使用!!
  5. 模型的设计/Loss函数的设计/训练方法的设计
    1. Gradient Decent 预测数值,现实与理想的差距
    2. 分布式训练/分段训练
  6. 模型的验证
    1. 分类:PR曲线、ROC、F-Score、mAP(加权平均数)
    2. 回归:均方差
    3. 精确度:precision=1-错误率
    4. 召回率:Recall=1-漏报率
  7. 模型的集成、优化
    1. SDK的开发
    2. 模型压缩
  8. 构建应用
  9. 数据采集

数据采集

数据采集—> 数据清洗—>数据仓库—>数据挖掘/特征工程—>数据标注—>训练集、评测集的制作—>机器学习—>模型评测—>数据采集
data-scientist-roadmap.png

生成对抗网络 GAN(干)

  • 生成数据,做假钞
  • 2个人的博弈
  • End2End
  • DeepDream CycleGan 对抗生成网络
  • 正面照生成背面照

目标检测

  • 车牌、arm芯片都可以跑
  • NMS 滑窗 若干框合成一个框,缩成一个框
  • 信用评分:连续(回归) 转换sigmod 分类问题!
  • 连续的事情搞不定,就把它拆成小块来做

GPU 和 CPU

  • GPU专门做浮点型运算,批量运算单元,不要显示东西所误导(显卡)
  • CPU小系统,寄存器,没有GPU好
  • Cuda 酷打 本身像C++ 把数据放到GPU运算,再取出的东西
  • OpenCL 丢掉AMD中运算
  • Tesorflow/keras/Caffe/MXNet/PyTorch
  • 1080Ti、Tesla
  • 地平线、寒武纪(中国),商汤
  • 分布式数据

开发过程

  1. 数据处理、清洗
  2. 数据集制作
  3. 机器学习
  4. 特征工程
  5. 对比几种机器学习方法
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值