![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 82
wangyanphp
这个作者很懒,什么都没留下…
展开
-
机器学习(五):w·x+b模型(2)
3. 支持向量机SVMSVM主要用于分类问题,w∈Rn,b∈R,y∈{−1,1}w\in R^n, b\in R, y\in \{-1,1\}(注意此处不再将b视为w0w_0)3.1 引言3.1.1 training set完全线性可分假设有很多wx+b=0超平面可以将training set中的数据正确分类,那么应该选用哪个(w,b)呢?如下图所示: 很容易凭借直觉选出wx+b=0与所有的数原创 2017-02-04 16:06:53 · 3458 阅读 · 0 评论 -
机器学习(十一):K-Means算法
1. K-Means1.1 核函数的另一种观点之前我们提到过高斯核函数:K(x1,x2)=ϕ(x1)ϕ(x2)=exp(η||x1−x2||2)K(x_1,x_2)=\phi(x_1)\phi(x_2)=exp(\eta||x_1-x_2||^2)当时我们是把ϕ(x)\phi(x)当做对x进行无限维的特征转换。 其实根据高斯函数的形状,我们可以将其视为:对x1,x2x_1,x_2相似性的度量/距离原创 2017-02-10 12:03:18 · 2071 阅读 · 0 评论 -
机器学习(十):PCA
1. PCA1.1 PCA算法为什么要使用主成分分析?正如名字所示,其目的显而易见,不再赘述,此处从自动编码器的角度审视PCA。 最小化如下损失函数:C=12m∑i=1m||y(i)−WWTx(i)||2C=\frac 1{2m} \sum_{i=1}^m ||y^{(i)}-WW^Tx^{(i)}||^2根据WWTWW^T的对称性,我们使用eigen-decompose:WWT=VDVTWW原创 2017-02-09 21:08:13 · 775 阅读 · 0 评论 -
机器学习(九):神经网络(2)——深度学习
1. 深度学习为什么难训练?之前提到过深度学习,那么深度学习跟普通的神经网络相比,难点在于哪里呢?1.1 梯度的不稳定性深度学习的根本问题在于梯度的不稳定性。 σ导数在 σ′(0) = 1/4 时达到最⾼。现在,如果我们使⽤标准⽅法来初始化⽹络中的权重,那么会使⽤⼀个均值为 0 标准差为 1 的⾼斯分布。因此所有的权重通常会满⾜|wj|<1|w_j|\lt1。有了这些信息,我们发现会有|wjσ原创 2017-02-09 11:53:27 · 1000 阅读 · 0 评论 -
机器学习(八):神经网络(1)
(主要参考书籍《神经网络与深度学习》)1. 什么是神经网络1.1 从感知器说起……什么是感知器?很简单,前面我们已经说过了: output=sign(wTx)output=sign(w^Tx) 什么意思呢?我们有一些输入,我们会根据这些输入做出一个决定:YES OR NOT。我们可能会想这么简单有什么用呢?那我们得想一下电脑——CPU和人脑的组成了。先从简单的CPU说起:只需要简单与或非三个原创 2017-02-08 21:13:51 · 2918 阅读 · 0 评论 -
机器学习(四):w·x+b模型(1)
假设输入空间x∈Rnx\in R^n, 对于分类问题,我们使用的假设空间为H={h=sign(wTx+b)|w∈Rn,b∈R}H=\{h=sign(w^Tx+b)| w\in R^n, b\in R\} 对于回归问题,我们使用的假设空间为H={h=wTx+b|w∈Rn,b∈R}H=\{h=w^Tx+b|w\in R^n, b\in R\} 其实际意义也比较简单:对于分类问题,用一个超平面将特征原创 2017-01-17 17:39:43 · 4913 阅读 · 0 评论 -
机器学习(二):如何使用机器学习来解决一个问题?
给定一个问题,如何设计机器学习系统来解决此问题?1. 机器学习流水线1.1设计问题的流水线什么是“machine learning pipeline”?对于一个由多个阶段/模块组成的系统,当系统中含有机器学习的阶段/模块时,我们就说这是一个机器学习流水线。 Photo OCR问题:识别图片中的文字。 我们将这一问题分成三部分:首先是检测到图片中存在文字的部分,然后将文字分割成一个个的字符,最原创 2017-01-16 16:43:21 · 3933 阅读 · 0 评论 -
机器学习(三):拉格朗日乘子与梯度下降法
这里介绍两个在以后的机器学习算法中经常使用的技巧:拉格朗日乘子(Lagrange multiplier)和梯度下降法(Gradient descent)。1. 拉格朗日乘子法拉格朗日乘子被⽤于寻找多元变量在⼀个或者多个限制条件下的驻点。1.1 等式约束条件考虑这样一个问题: 求解f(x1,x2)f(x_1,x_2)的最大值,其中x1和x2必须满足如下限制条件:g(x1,x2)=0g(x_1,x_2原创 2017-01-16 21:58:24 · 13623 阅读 · 0 评论 -
机器学习(一):统计学习问题概述
学习:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提供系统性能的机器学习。 机器学习的对象是数据,它从数据出发,提取数据特征,抽象出数据模型,发现数据中的知识,又回到对数据的分析和预测中去。[机器学习关于数据的基本假设是:同类数据具有一定的统计规律性。由于它们具有统计规律性,所以可以用概率统计方法来处理。]1. 何时使用机原创 2017-01-15 20:29:36 · 2482 阅读 · 0 评论 -
机器学习(七):集成方法(2)Boost
Boost(提升)方法不同于bagging,基分类器是顺序训练的,每个基分类器使⽤数据集的⼀个加权形式进⾏训练,其中与每个数据点相关联的权系数依赖于前⼀个分类器的表现。特别地,被⼀个基分类器误分类的点在训练序列中的下⼀个分类器时会被赋予更⾼的权重。⼀旦所有的分类器都训练完毕,那么它们的预测就会通过加权投票的⽅法进⾏组合。1. AdaBoost假设我们在对一组数据进行分类的时候,确定一个分类模型;原创 2017-02-05 19:40:44 · 3013 阅读 · 0 评论 -
机器学习(六):集成算法(1)Bagging
1.Aggregation概论1.1 引言三个臭皮匠,顶个诸葛亮。 假设我们有多个预测模型g1,g2...gTg_1,g_2...g_T,能不能将这些模型组合起来,获得更好的性能?回想一下,之前我们Validation:是在多个模型中选择出一个好的模型,现在问题变成了:多个模型组合出一个更好的模型。 能不能呢?我们从直观上来看: 我们组合是有效果的。1.2 这么多g是怎么获得的? 如果使原创 2017-02-05 12:00:29 · 1378 阅读 · 0 评论 -
机器学习(十二):推荐系统的两种观点
1. 从物理意义出发的观点什么是推荐系统?以电影推荐为例,就是对于一部电影,我们预测某个用户对一部电影的评分。 我们用如上所示符号来表示。值得注意的是,很有可能用户没有给某电影打分,此时r(i,j)=0r(i,j)=0。这里需要理清: 对于一个电影,我们需要找到一些特征空间XX来衡量这个电影; 对于一个用户,我们需要找到一些参数h(x)=wTxh(x)=w^Tx来预测用户对这部电影的评分。原创 2017-02-10 16:28:56 · 2254 阅读 · 0 评论