特征选择
基本思路是根据某个评价指标独立的对原始特征项(词项)进行评分排序,从中选择得分最高的一些特征项,过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、χ²统计量等。手段包括:正则化(L1,L2)方法,回归模型(根据各属性权重)、决策树(根据距离跟结点距离)、随机森林(平均不纯度减少,平均精确度减少)
分层抽样
机器学习模型训练过程中,通过分层抽样将样本集划分为训练集、测试集,做到不相交的两个数据集分布基本一致。先按对观察指标影响较大的某种特征,将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。这样样本代表性较好,抽样误差比较小