机器学习项目实战流程

本文详细介绍了机器学习项目中的特征工程,包括数据预处理的步骤,如清洗、标准化、缺失值处理、数据变换等。还讨论了特征选择的方法,如过滤法、包装法和嵌入法,并提到了正则项特征选择和树模型特征选择。最后,简述了模型诊断和调优,如通过学习曲线判断欠拟合和过拟合并提出相应解决方案。
摘要由CSDN通过智能技术生成

机器学习项目流程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
问题建模——获取数据——特征工程——模型训练——模型调优——线上运行
或者分为三大块:数据准备与预处理;模型选择与训练;模型验证与参数调优。

特征工程

特征如何处理:清洗、标准化、特征选择、特征扩展、更新特征等。
数据清洗:1.比如说一些年龄特征是空值或者负数或者大于200岁等;2.某些页面的播放量大于曝光量,这些就是数据的不合理。
特征的类型包括:
基本特征:空间(种类、数量、金额、大小、重量、长度等等);时间(时长、次数、频率、周期)
统计特征:比例、比值、最大、最小、平均值、中位数、分位点、异常值等
复杂特征:时间和空间(比如近两个月的购物次数);空间和空间(比如超过500元的订单数);时间和空间和统计(最早的两个月购物次数占总购物次数的比重)
自然特征:图像、语音、文本、网络等(如自拍照是否微笑)

数据预处理:

数据预处理的思考流程如下:
(1)读入样本,观察原始数据:
样本类别的取值集合与分布ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值