机器学习流程
数据集 -> 导入数据集 -> 构建模型 -> 训练 -> 部署
1. 数据采集与清洗
数据采集
网络数据:网络爬虫、下载
系统数据:格式化处理
相关库:requests
和scrapy
数据清洗
对数据集中的冗余、不规则数据进行清理、格式化
相关库:beautiful soup
2. 特征分析及提取
特征分析
观察数据、经验分析
特征降维
主成分分析法(PCA)
线性判别分析(LDA)
特征值计算
数值型特征(标准化、正则化、归一化)
字符型特征取值(BOW、CBOW、向量化)
3. 选择算法
监督学习
人工输入正确的已知结果,机器使用已知信息预测新的结果。
- 回归:估计连续变量(输出确切值)
- 分类:定义一个类别(离散值、布尔量、定类变量)
无监督学习
发现数据中的结构,人工输入未定义结果的数据,机器发现隐藏在数据中的有用信息。
- 聚类分析:进行分组
- 密度估计:近似分布
- 降维:选择相关变量
4. 测试验证
验证方法
随机定额分配训练、测试样本
十折交叉验证
一般评判指标
准确率 Accuracy
精确率 Precision
召回率 Recall
综合评价指标 F-score
二值分类器新评判指标
ROC/AUC
机器学习常用库
Numpy:存储数据
Pandas:对Numpy的封装
Matplotlib:画图
Scipy:数学计算库
Scikit-Learn / PaddlePaddle:常见算法集成
Keras:对tensorflow的封装