人工智能的Pipeline
- 数据清洗
- 清洗数据
- 处理数据
- 如何做特征工程,如何把数据做出优秀的训练集
- 影响后面机器学习应用,烂的数据集效果不好,质量不高
- ETL–Extract Transform Load
- Pandas/Numpy/MapReduce
- 数据库(数据仓库)
- Mysql/Redis/mongo
- Mysql/Postgres
- Hive 10亿辆车 聚类 --> 最后交给MapReduce做
- OLAP --HMASE
- spark
- 数据集市/数据挖掘/数据标注(50%时间)
- 如何生成我需要的精细的、优质的数据
- 数据挖掘
- 数据可视化
- 数据统计
- 特征工程
- 数据标注 (80%是监督学习/无监督学习也是为了监督学习)
- 自动化标注(没有人工就没有数据)
- 标注平台、节省人力
- 聚类等自动化
- 几乎不存在任何
通用算法
做自动化标注,一定是特定算法特定标注 - 算法人员花大量时间在标注上!
- 再标再跑
- 合理高效的标注
- 几乎不存在任何
- 评测集合数据集的准备(数据Team的产出标准)
- Train Set——教科书、Validata-在线测验(帮助学习) | Test—期末考试
- 数据集市库、同一份数据,不同人使用!!
- 模型的设计/Loss函数的设计/训练方法的设计
- Gradient Decent 预测数值,现实与理想的差距
- 分布式训练/分段训练
- 模型的验证
1. 分类:PR曲线、ROC、F-Score、mAP(加权平均数)
2. 回归:均方差
3. 精确度:precision=1-错误率
4. 召回率:Recall=1-漏报率 - 模型的集成、优化
- SDK的开发
- 模型压缩
- 构建应用
- 数据采集
数据采集
数据采集—> 数据清洗—>数据仓库—>数据挖掘/特征工程—>数据标注—>训练集、评测集的制作—>机器学习—>模型评测—>数据采集
生成对抗网络 GAN(干)
- 生成数据,做假钞
- 2个人的博弈
- End2End
- DeepDream CycleGan 对抗生成网络
- 正面照生成背面照
目标检测
- 车牌、arm芯片都可以跑
- NMS 滑窗 若干框合成一个框,缩成一个框
- 信用评分:连续(回归) 转换sigmod 分类问题!
- 连续的事情搞不定,就把它拆成小块来做
GPU 和 CPU
- GPU专门做浮点型运算,批量运算单元,不要显示东西所误导(显卡)
- CPU小系统,寄存器,没有GPU好
- Cuda 酷打 本身像C++ 把数据放到GPU运算,再取出的东西
- OpenCL 丢掉AMD中运算
- Tesorflow/keras/Caffe/MXNet/PyTorch
- 1080Ti、Tesla
- 地平线、寒武纪(中国),商汤
- 分布式数据
开发过程
- 数据处理、清洗
- 数据集制作
- 机器学习
- 特征工程
- 对比几种机器学习方法