ML基础
文章平均质量分 59
MinyounZhang
Ai4fun;随缘粘贴点自己写的阅读笔记
展开
-
训练集与测试集分布差距
一位老铁的说法:第一,分布差距大是重要特征数值差距大,比如一个是 0-1,另外一个 0.5-2,如果是这种情况无解,你能做的只能扩大训练集合,因为重要特征一旦偏离,哪怕数学上都是有交集,现实上下文都是差距极大的,这和数据采集流程和规范等非技术问题有关。第二,重要特征数据差距不大,不太重要的差距较大,这种情况可以屏蔽这些特征,或者利用类似迁移学习 prototype 那种思路约束特征输入不过于偏离训练集。第三,所有特征数值差距都不大,但是特征之间相关性统计差距大,比如训练集当中 A 和 B 相关性更加强原创 2021-04-26 14:52:32 · 3276 阅读 · 0 评论 -
特征集的贝叶斯误差及贝叶斯最优化分类器
特征集的贝叶斯误差及贝叶斯最优化分类器贝叶斯误差,在特征分布确定(一般没法知道)的情况下,描述了模型所能达到的最好分类结果;在模型拟合能力完美的情况下,衡量了当前采样特征集对真实特征分布的采样误差(不确定是不是可以用这个词)。贝叶斯误差Wiki定义:贝叶斯误差(bayes error rate)是指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到最小误差。也可以叫做最小误差。直观上可以这么理解,贝叶斯误差是在给定特征集的情况下,假设数据无限(且准确),依靠统计所能得到的最小误差。它是原创 2021-04-26 13:53:56 · 931 阅读 · 0 评论