![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
花折泪
这个作者很懒,什么都没留下…
展开
-
隐含语义索引(Latent Semantic Indexing )
向量空间模型(Vector Space Model)将文本看作是一个向量,向量中的每一维都代表某单词是否出现在文本中,使用向量空间模型的pca算法时并不做规约化,因为文本里的每一条不一定有同等的作用。向量空间中紧挨着的文本,我们认为他们讨论的是同一类的问题:其中有三个基础的性质:1. d1挨着d2,那么d2挨着d12. d1挨着d2,d2挨着d3,那么d原创 2014-11-07 23:37:14 · 2620 阅读 · 0 评论 -
正规方程组(The normal equations)
为了寻求最优解,在低维的时候,正规方程组是最直接的方式。因为它要计算(1),其复杂度为(2)。如下图,m代表样例,n代表特征原创 2014-10-17 10:15:30 · 9257 阅读 · 2 评论 -
牛顿法(Newton’s method)
牛顿法通常都是用来寻找一个根,同时也可以理解为最大化目标函数的局部二次近似。设我们的目标函数为f(x),那么一个关于x0的二次近似就有:1我们用f进行匹配:2可以得到:3如果b这是牛顿法在最优化方面的表述,但是一旦5,牛顿法就不适用了,我们必须要使用其他的优化算法。下面给出一种非二次的变形:在Dirichlet分布的最大似然估计中,我们接触到目标函数:6这个目标函数是凸原创 2014-10-18 12:56:09 · 2585 阅读 · 0 评论 -
指数族和广义线性模型(The exponential family and Generalized Linear Models)
指数族的概率密度形如:1对所有的:2所以:3当T(x) =x,A(θ)是h(x)的Laplace变换的log形式。下面我们给出常见的概率分布:4之后,我们转向我们熟悉的形式:5η被称为natural parameter或者canonical parameter,T (y)被称为sufficient statistic(a statisticis a function of原创 2014-10-18 18:46:07 · 1812 阅读 · 0 评论 -
softmax regression
我们给出一个GLM的例子,是logistic regression的推广,应用于多类分类。所以,我们有y ∈{1, 2, . . . , k },我们用k个参数φ1, . . . , φk来表示k个输出的概率,由于第k个参数是多余的,所以我们只用k-1个参数,而1为了将其描述为指数族,我们将定义2 3在这里,T (y)不再等于y,而是一个k-1维的向量。我们引入一个类似于布尔函原创 2014-10-19 14:15:00 · 540 阅读 · 0 评论 -
生成学习算法(generative learning algorithms)
我们之前介绍了一些判别学习算法(discriminative learning algorithms),例如logistic regression,都是研究p(y|x),而接下来我们介绍生成学习算法(generativelearningalgorithms),是对p(y) 和p(x|y)进行建模,通过最大化联合似然来学习参数:1我们利用Bayes公式来将问题描述为:2然而,我们不需原创 2014-10-20 20:13:27 · 1136 阅读 · 0 评论 -
朴素贝叶斯(Naive Bayes)
首先,我们有贝叶斯公式(Bayes theorem):1然后,给出我们的假设:我们的输入x中的数据是两两条件独立的,因此:现在我们以一个多变量的Bernoulli模型为例:对给定的i,对每一个j,3相互独立,有42数据的联合似然:5使其取得最大值,解得:6既然已经得到了参数,当我们有一个新的x,我们就可以计算:7实践证明,贝叶斯是快的,空间效率高原创 2014-10-21 12:28:23 · 1125 阅读 · 0 评论 -
平滑(smoothing)
1 问题的提出由于在现实生活中,我们的观察尺度有限,我们的样本(输入)很可能没有办法包含所有可能的情况,那么我们怎么去处理先前看不见的事件呢?1举个例子,莎士比亚使用了30000个双连词(bigram),然而我们总共有V^2=8.44亿个可能的双连词,所以,99.96%的可能的双连词都没有出现过,那是不是意味着,任何句子包含有其中某一种双连词的概率就为0呢?同样的问题有很多,当我们面对原创 2014-10-21 17:53:07 · 16103 阅读 · 1 评论 -
隐马尔科夫模型(HIDDEN MARKOV MODEL)
1.0 问题的提出假设有一个房间,一个人在房间里投掷硬币,你在房间的外面,只能看见结果,例如:TTHTHHTT(T代表反面,H代表正面),这个结果被称为观察序列,但是你却不知道房间里的人是一直在投掷一个硬币,还是投掷不同的硬币,你也不知道硬币是均匀的,还是有偏差的。下图给出四个例子,a代表投掷一个均匀的硬币,b代表两个均匀的硬币,c代表两个有偏差的硬币,d代表三个有偏差的硬币。可原创 2014-12-20 18:19:30 · 1079 阅读 · 0 评论 -
梯度下降(gradient descent)
梯度下降法,又称最速下降法。1847年由著名的数学家柯西Cauchy给出。梯度下降法,基于这样的观察:如果实值函数 在点 处可微且有定义,那么函数 在 点沿着梯度相反的方向 下降最快。因而,如果对于 为一个够小数值时成立,那么 。考虑到这一点,我们可以从函数 的局部极小值的初始估计 出发,并考虑如下序列 使得因此可得到如果顺利原创 2014-10-16 21:53:08 · 1491 阅读 · 0 评论 -
局部加权线性回归(Locally weighted linear regression)
紧接着之前的问题,我们的目标函数定义为:1我们的目标是最小化cost function:2换成线性代数的表述方式:34是mxm维的对角矩阵5是mxn维的输入矩阵6是mx1维的结果7是nx1维的参数向量8 9令11有12既13权重定义为:14参数τ控制权重函数的宽度,τ越大,权重函数越宽:15下面给出matlab代码 16 所以原创 2014-10-17 16:00:53 · 3312 阅读 · 1 评论 -
主成分分析(Principal Component Analysis)与 奇异值分解(Singular Value Decomposition)
主成分分析(Principal Component Analysis)我们来形式化的描述一下PCA的思想1图中描述了一组二维的数据,但同时我们可以看出在u1方向上的数据已经可以描述数据集的大部分的信息,因此可以将二维的数据映射到u1方向上,实现降维。在实现pca算法之前要进行一些预处理:1. 计算数据的均值22. 将每一个数据减去均值3这两步规约化了原创 2014-11-07 18:32:40 · 1480 阅读 · 0 评论 -
独立成分分析(Independent Components Analysis)
首先我们对ICA算法做一些形式化的描述:ICA是用来分离混合源的技术。所以我们准备先混合,再分离,我们定义两个独立的源,上面的称为A,下面的称为B,代码如下: 1然后我们将其线性混合,上面的为A - 2*B下面的为1.73*A+3.41*B2之后使用fastica函数,就将两个源分开了:3完整的工程在这里下载:http://research.ics.aalto.fi原创 2014-11-08 20:23:27 · 3304 阅读 · 1 评论 -
多项式事件模型(multinomial event model)
我们之前讨论了基于朴素贝叶斯的文本分类,也被称作多变量伯努利事件模型(multi-variate Bernoulli event model),我们首先假设,邮件是随机发送过来的(垃圾与非垃圾),所以有先验概率p(y),然后我们又认为,邮件里每一个单词是相互独立的,p(xi=1|y) =φi|y,一条讯息的概率是1这里,我们介绍一种新的模型,被称为多项式事件模型(multinomial e原创 2014-10-23 18:55:37 · 6769 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的转载 2014-10-23 19:01:28 · 725 阅读 · 0 评论 -
坐标下降法(Coordinate descent)
首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是2对于所有的d,i都有3这里的4代表第i个标准基向量。答案为成立。5这是因为:6但是问题来了,如果对于凸函数f,若不可微该会怎样呢?7答案原创 2014-10-26 15:20:14 · 44495 阅读 · 12 评论 -
偏差与方差(Bias and Variance)
1我们将从三个方面阐述偏差与方差。(Bias and Variance) 1.1概念性的定义基于偏差的误差:所谓基于偏差的误差是我们模型预期的预测与我们将要预测的真实值之间的差值。偏差是用来衡量我们的模型的预测同真实值的差异。基于方差的误差:基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如,当你多次重复构建完整模型的进程时,方差是在预测在模型的不同关系间变化的多少。原创 2014-10-27 20:12:33 · 4929 阅读 · 1 评论 -
特征选择(Feature Selection)
交叉验证直接介绍k折叠交叉验证(k-fold cross validation):11. 特征选择1.1 相关系数先考虑对连续的输出y进行预测,皮尔森相关性系数为:2Cov代表协方差,var代表方差,R(i)的估计定义为:3相关性系数描述了xi与y之间的相关性,如果R(i)等于1或者-1,则xi与y线性相关。所以,我们可以用4作为特征排列的一原创 2014-10-28 22:40:30 · 4690 阅读 · 0 评论 -
k-means
我们先展示一下k-means方法的过程:如图给出一个数据集:1.我们猜测它可以被分为5类,因此我们初始化k=5,然后我们随机设置5个中心点22.将数据与最近的中心点相匹配:33.所有分为一类的数据重新计算中心点(均值):44.循环2,3过程直至收敛5让我们审视一下整个的收敛过程:6原创 2014-11-01 19:14:47 · 752 阅读 · 0 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯转载 2015-09-21 16:12:20 · 687 阅读 · 0 评论