机器学习concept
机器学习concept
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
LDA概念辨析(词分布与关键词权重TF-IDF)
众所周知,LDA——隐狄利克雷分布作为一个“生成模型”,可以随机生成一篇文章。而我们在求一篇文章的关键词的时候,要涉及到这篇文章的主题分布和词分布。而我们进行具体的主题分布以及词分布计算的时候,我们会先将文档的词项(term)进行TF-IDF处理。我下面对TF-IDF和词分布的概念加以辨析。TF-IDF是一种衡量某一篇文档中某个词对该篇文档重要程度的计算方法。通过TF-IDF公式,我们可以计算...原创 2018-09-02 14:54:24 · 9450 阅读 · 0 评论 -
sklearn之Cross-validation、GridSearchCV,以及训练集(train)、测试集(test)、验证集(validate)的辨析
1.训练集(train)、测试集(test)、验证集(validate)对于初学者而言,训练集、测试集、验证集这三个词可能会让你很迷糊,特别是后两者。这里我尽量用简单的话说一下我自己的理解,希望可以讲明白: 对于机器学习模型训练而言,一般是分为训练集和测试集的。训练集有input(X)和label(y),测试集只有input(X),它的label是要测试集训练好的模型去预测的...原创 2018-09-29 00:41:15 · 15131 阅读 · 6 评论 -
天下没有免费的午餐
在机器学习中存在一个普适定理--没有免费的午餐(No Free Lunch Theorem,NFL定理)。NFL定理的具体描述为1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;3)对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也...转载 2018-11-25 23:42:25 · 587 阅读 · 0 评论 -
线性特征与非线性特征、线性模型与非线性模型
一.线性特征与非线性特征“线性”与“非线性”是数学上的叫法。线性,指的就是两个变量之间成正比例的关系,在平面直角坐标系中表现出来,就是一条直线;而非线性指的就是两个变量之间不成正比,在直角坐标系中是曲线而非直线,例如一元二次方程的抛物线、对数函数等等关系。一切不是一次函数的关系,都是非线性的。 线性特征:次数为1的特征。这些特征对结果的影响是满足加法原则的,即整体等于部分之和 非线性特征:...原创 2019-03-05 00:29:58 · 23676 阅读 · 3 评论