机器学习项目开发步骤
1. 获取数据集
sklearn.dataset、下载现有、爬取网络资源、自行生成
2. 读入数据集、探查数据
numpy + pandas : 读写、行列操作、获取统计信息
3. 数据预处理
主要用到 sklearn.preprcessing
详见sklearn中文社区 sklearn.preprcessing
4. 特征工程
主要用到 sklearn.feature_selection
详见sklearn中文社区 sklearn.feature_selection
5. 划分数据集
主要用到sklearn.model_selection.train_test_split
详见sklearn中文社区 sklearn.model_selection
6. 模型|算法选择
其中,knn - 算法评价的基准,如果一个算法还不如knn,那么肯定不能选他。
7. 创建算法模型实例对象(给出一些超参数)
8. 训练模型
分类/回归 = (训练集(训练特征集 + 训练标签集))
聚类 = (训练集(训练特征集))
9. 模型评估
sklearn.metrics
10. 模型的序列化(保存模型)
推荐用joblib库