机器学习项目流程:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
问题建模——获取数据——特征工程——模型训练——模型调优——线上运行
或者分为三大块:数据准备与预处理;模型选择与训练;模型验证与参数调优。
特征工程
特征如何处理:清洗、标准化、特征选择、特征扩展、更新特征等。
数据清洗:1.比如说一些年龄特征是空值或者负数或者大于200岁等;2.某些页面的播放量大于曝光量,这些就是数据的不合理。
特征的类型包括:
基本特征:空间(种类、数量、金额、大小、重量、长度等等);时间(时长、次数、频率、周期)
统计特征:比例、比值、最大、最小、平均值、中位数、分位点、异常值等
复杂特征:时间和空间(比如近两个月的购物次数);空间和空间(比如超过500元的订单数);时间和空间和统计(最早的两个月购物次数占总购物次数的比重)
自然特征:图像、语音、文本、网络等(如自拍照是否微笑)
数据预处理:
数据预处理的思考流程如下:
(1)读入样本,观察原始数据:
样本类别的取值集合与分布ÿ