预
无峥
这个作者很懒,什么都没留下…
展开
-
算法模型选择标准
综述本篇博文详细讲解了机器学习中模型选择的理论知识。主要分为以下五个模块。经验误差与过拟合评估方法性能度量比较检验偏差与方差一、经验误差与过拟合机器学习始终都在关注一个误差的概念,学习器在训练集上的误差称为training error。在新样本的误差称为泛化误差(generalization error),显然我们希望得到泛化误差小的学习器。为了达到这个目的我们必须尽可能的学习到训练样本原创 2017-12-24 17:37:55 · 5105 阅读 · 0 评论 -
特征抽取综述
Sklearn —– Feature_Selection文章只介绍sklearn框架中提供的特征选择的方法的使用情况,至于提取的原理,过后再专门详细阐述。特征选取是机器学习领域非常重要的一个方向。 主要有两个功能:(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合(2)增强特征和特征值之间的理解清除低方差的特征这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本原创 2017-10-29 11:05:23 · 790 阅读 · 0 评论 -
SK中模型选择模块的使用
sklearn 中关于model_selection的总结|||评分标准、metric模块!API: http://scikit-learn.org/stable/model_selection.htmlmodel_selection,顾名思义必然是在训练数据的时候使用啊。用来干什么呢?我们进行参数调整,我们选择不同的ML算法。那么这些算法和参数怎么才是最好的搭配呢?在sklearn给出了一整套原创 2017-10-28 16:18:58 · 2446 阅读 · 0 评论 -
不平衡样本处理方法
原文链接:http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee 的回复:转载 2018-01-14 12:00:40 · 11792 阅读 · 0 评论 -
SMOTE
简述SMOTE算法假设现在有一份数据大分类的有500,小分类的有100。如果使用SMOTE算法怎么从小分类中生成大分类的500个数据?从小分类中依次选择点。假设现在选则点A。计算点A距离其他99个点的欧式距离。并按照距离从小到大依次排序。我们现在要生成500个数据则以每一个点为中心生成5个点才可以。那么怎么生成呢?可以根据这个公式来:a’ = random(0,1)* d好了原创 2018-01-14 12:03:01 · 2734 阅读 · 0 评论 -
1 Features Engineering for Machine Learning中文翻译系列(一)
来自于github项目,点击查看一、引言机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水...翻译 2018-10-21 21:00:19 · 1074 阅读 · 0 评论 -
2 Features Engineering for Machine Learning中文翻译系列(二)
来自于github项目,点击查看二、简单数字的奇特技巧在深入研究诸如文本和图像这样的复杂数据类型之前,让我们先从最简单的数字数据开始。它们可能来自各种来源:地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数...翻译 2018-10-21 21:33:20 · 1034 阅读 · 0 评论