deep learning
文章平均质量分 70
ephramliu
NWPU硕士
展开
-
【特征工程】数据缺失值处理
1 不进行处理在数据源包含nan之类的值的时候也能进行建模:lightGBM(把缺失值看作一类,本质上也是真值转换,不推荐)Cart树(为了提升预测效果而填充,容易过拟合,不推荐)一般还是要处理缺失值。2 简单处理真值转换:把年龄、学号等属性给自动填充为固定的值,例如将部分缺失年龄的数据填充为-1。此外,也可以通过从业务逻辑溯源的方法进行缺失值的找回。暴力删除:直接删除带nan的数据(缺失比例较小)。3 处理方法3.1 统计量插补均值、众数、中位数、特殊值(样本前/后的一个值)原创 2022-01-31 03:38:24 · 3426 阅读 · 0 评论 -
【深度学习】有效防止过拟合
为了得到一致假设而使假设变得过度复杂称为过拟合(overfitting),过拟合表现在训练好的模型在训练集上效果很好,但是在测试集上效果差。也就是说模型的泛化能力弱。防止过拟合措施1 数据集扩增(Data Augmentation)在物体分类(object recognition)问题中,数据扩增已经成为一项特殊的有效的技术。物体在图像中的位置、姿态、尺度,整体图片敏感度等都不会影响分类结果,所以我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。或者在语音识别(speech recogn原创 2020-11-05 14:47:30 · 996 阅读 · 0 评论