机器学习基础
smilyccj
这个作者很懒,什么都没留下…
展开
-
【机器学习基础第1期】期望风险、经验风险、结构风险的关系
首先引入损失函数的概念:损失函数就一个具体的样本而言,模型预测的值与真实值之间的差距。对于一个样本(xi,yi)其中yi为真实值,而f(xi)为我们的预测值。使用损失函数L(f(xi),yi)来表示真实值和预测值之间的差距。两者差距越小越好,最理想的情况是预测值刚好等于真实值。 常见的损失函数如下: 通过损失函数我们可以得知对于单个样本点的预测能力,对于训练样本集中所有数据的预测可以通过累加得到原创 2017-10-07 12:33:21 · 7276 阅读 · 1 评论 -
【机器学习基础第2期】机器学习中的范数规则化之L0、L1与L2范数、核范数
规则化项符合奥卡姆剃刀原理:在所有可能选择的模型中,我们应该选择能够很好的解释已知数据并且十分简单的模型。1.L0范数是指向量中非0元素的个数。使用L0范数来规则化矩阵的话,即希望W的大部分元素都是0,即让参数W是稀疏的。 2.L1范数是指向量中各个元素的绝对值之和。L1范数和L0范数都可以实现稀疏,使用L1而不是L0的原因:1).L0范数难以求解。2)L1范数是L0范数的最优凸近似。进行参原创 2017-11-03 19:48:52 · 2129 阅读 · 0 评论 -
【机器学习基础第3期】监督和非监督学习
1.监督和无监督学习监督学习:对事物未知表现的预测(分类、回归)其中分类是离散已知数量的预测,回归是连续变量的预测。一般使用两种类型的目标变量:标称型和数值型。无监督学习:对事物本身性质的分析(降维、聚类)2.标称型和数值型数据标称型:标称型目标变量的结果在有限目标集中取值,如真与假(标称型目标变量主要用于分类)数值型:数值型目标变量可以从无限的数值集合中取值(数值型目标变量主要用于回归...原创 2017-11-03 19:51:21 · 2007 阅读 · 0 评论 -
【机器学习基础第4期】聚类算法分析
k均值聚类算法:聚类属于无监督学习。聚类的目的是找到每个样本x潜在的类别y,并将相似的样本x归到同样的簇中去。簇内的对象越相似,簇间的对象越不同,聚类的效果越好。假设:训练样本是{x1,x2,....,xm},每个xi属于R。工作流程如下:其中k是用户指定的聚类数,C(i)代表样例i和k个类别中距离最近的那个类别,质心u(j)代表我们对于同一个类别的样本中心点的猜测。《...原创 2017-03-12 18:10:27 · 477 阅读 · 0 评论