数据挖掘笔试总结:
1.连续值、缺失值 、正负样本不均衡处理方法
缺失值:
(1)删除含有缺失值的数据对象或属性
(2)估计遗漏值,差值补全。
a.均值插补 均值 或者众数
b.利用同类均值插补
c.极大似然估计 前提适用于大样本期望值最大化
d.多重插补(较好)
最近邻平均属性
众数
缺失值为随机缺失: 用a b 比较好
目前有三类处理方法:
1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。
2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。
3. 最精确的做法,把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失。连续型变量也可以这样处理。比如Google、百度的CTR预估模型,预处理时会把所有变量都这样处理,达到几亿维。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。
而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。
正负样本不均衡处理办法:
例如正样本少 负样本多的情况
只要有两类方法
1. 样本采样
对稀疏样本上采样:模拟生成和当前稀有样本临近的一些样本
对密集样本下采样:去除噪声、冗余。对负样本聚类,在每个层上按比例抽取部分样本。
2. 算法层面优化
代价敏感学习方式Cost-sensitivelearning,赋予各个类别不同的错分代价,比如对错分正类样本做更大的惩罚。
SVM,给样本数量少的正类更大的惩罚因子,表示我们重视这部分样本。
连续值
连续值离散化
计算关联新闻数目,关联新闻与公司,为新闻事件打标签,新闻倾向评分。
进行大盘指数与舆情指数相关性分析