问题1:
正样本:负样本=100:10
方法1: 取十分之一正样本和负样本
方法2:正样本分成十分,每一份和负样本训练,十个分类器作bagging
问题2:
低频次聚合成一列和高频测做one-hot
问题3:
one-hot以后出现大量稀疏信息,会影响什么?
1)内存不够用
2) 预测质量不高(不准)
问题1:
正样本:负样本=100:10
方法1: 取十分之一正样本和负样本
方法2:正样本分成十分,每一份和负样本训练,十个分类器作bagging
问题2:
低频次聚合成一列和高频测做one-hot
问题3:
one-hot以后出现大量稀疏信息,会影响什么?
1)内存不够用
2) 预测质量不高(不准)