机器学习基础
文章平均质量分 84
kuaizi_sophia
这个作者很懒,什么都没留下…
展开
-
数据集的训练集和测试集划分
数据集的训练集和测试集划分留出法(hold-out)留出法,直接将数据集DDD划分为两个互斥的集合,其中一个集合作为训练集SSS,另一个作为测试集TTT,一般做法是将2/3~4/5的样本作为训练集,其余部分作为测试集;在使用留出法时,一般采用多次随即划分、重复进行实验评估后,取平均值作为留出法的评估结果。交叉验证法(cross validation)交叉验证法,或kkk折交叉验证法(k-...原创 2018-12-07 18:05:21 · 3226 阅读 · 1 评论 -
多分类问题学习器拆分策略
多分类问题学习器拆分策略对于NNN个类别C1,C2,…,CNC_1,C_2,\ldots,C_NC1,C2,…,CN,多分类学习的基本思路是拆解法,即将多分类任务拆分成若干个二分类任务求解,拆分策略如下所示:一对一(One vs. One, OvO)将NNN个类别两两配对,产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务,每个任务使用一个二分类学习器进行学习;多个二分...原创 2018-12-07 20:55:07 · 2842 阅读 · 0 评论 -
分类任务中数据类别不平衡问题的几种解决方案
类别不平衡(class-imbalance),是指分类任务中不同类别的训练样例数目差别很大的情况(例如,训练集正类样例10个,反类样例90个),本文假设正类样例较少,反类样例较多。现有解决方案大体分为三类,如下文所示。欠采样(undersampling)欠采样方法,即去除一些反类样例,使得正、反类样例数量接近。EasyEnsemble为欠采样的代表性算法,利用继承学习机制,将反例划分为若干...原创 2018-12-08 16:49:00 · 5555 阅读 · 0 评论 -
分类和回归模型常用的性能评价指标
在预测任务中,给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)}D=\lbrace(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\rbraceD={(x1,y1),(x2,y2),…,(xm,ym)},其中yiy_iyi是示例xix_ixi的真实标记,mmm表示样例数量,m+m^+m+、m−m^-m−分别表示正例和反例的数量。回归任务...原创 2018-12-10 16:37:41 · 8903 阅读 · 3 评论 -
降低模型“过拟合”、“欠拟合”风险的方法
过拟合:指模型对于训练数据拟合呈过当的情况,反映到评估指标上,是模型在训练集上表现很好,但在测试集和新数据上表现较差,在模型训练过程中,表现为训练误差持续下降,同时测试误差出现持续增长的情况。欠拟合:指模型对于训练数据拟合不足的情况,表现为模型在训练集和测试集表现都不好。如上图所示,从左至右,依次为欠拟合、正常模型、过拟合情况,欠拟合情况中,拟合蓝线没有很好地捕捉到数据的特征,不能很好地拟合...原创 2018-12-26 11:30:16 · 5688 阅读 · 0 评论