机器学习项目开发过程/步骤(基于scikit-learn)


1. 获取数据集

sklearn.dataset、下载现有、爬取网络资源、自行生成


2. 读入数据集、探查数据

numpy + pandas : 读写、行列操作、获取统计信息


3. 数据预处理

主要用到 sklearn.preprcessing

详见sklearn中文社区 sklearn.preprcessing


4. 特征工程

主要用到 sklearn.feature_selection

详见sklearn中文社区 sklearn.feature_selection


5. 划分数据集

主要用到sklearn.model_selection.train_test_split

详见sklearn中文社区 sklearn.model_selection


6. 模型|算法选择

其中,knn - 算法评价的基准,如果一个算法还不如knn,那么肯定不能选他。


7. 创建算法模型实例对象(给出一些超参数)


8. 训练模型

分类/回归 = (训练集(训练特征集 + 训练标签集))
聚类 = (训练集(训练特征集))


9. 模型评估

sklearn.metrics

详见sklearn中文社区 sklearn.metrics


10. 模型的序列化(保存模型)

推荐用joblib库


11. 使用模型进行预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值