一. 数据选择/清洗/采样
1. 数据选择
- 主要思考哪些数据对预测结果有用
- 是否可以采集到
- 线上实时计算时获取是否便捷
- 如做商品推荐可从:店家、商品、用户三个角度去思考
2. 数据格式化
- 确定数据存储格式,关联hive表和hdfs文件夹
3. 数据清洗
- 该过程会花掉大部分时间,但也会使我们对业务有更为深入的理解,数据的好坏决定一个算法模型的上限
- 主要操作有去除脏数据,如根据常识判断的不可信数据;补齐缺省值,缺省值极多的字段考虑丢掉或将某个特征是否为缺省值作为新的特征加入
4. 正负样本不均衡
- 样本足够多且不平衡:
- 下采样(downsampling),从多的一类抽取部分
- 样本不够多且不平衡:
- 采集更多数据
- 上采样(oversampling):重复或图像识别中的镜像和旋转
- 修改loss function,加大少的一类的权重
- 上(下)采样方法:随机采样和分层抽样
- 随机采样:从全局样本中随机抽取,缺点是可能具有倾向性,如某类数据较少,没采到
- 分层抽样:如对每个年龄段分别进行抽样