Machine Learnning
文章平均质量分 56
沈波
本人小硕一枚,主要工作为利用机器学习、深度学习以及进化计算等手段,研究社交网络分析以及推荐系统的相关问题。
展开
-
斯坦福大学机器学习课程学习总结
第一讲:机器学习的基本概念的研究内容原创 2014-11-02 21:30:50 · 1535 阅读 · 0 评论 -
联合分布
联合分布[编辑]维基百科,自由的百科全书(重定向自联合概率分布)在概率论中, 对两个随机变量X和Y,其联合分布是同时对于X和Y的概率分布.目录 [隐藏] 1 离散随机变量的联合分布2 连续随机变量的联合分布3 独立变量的联合分布4 多元联合分布5 相关条目6 外部链接离散随机变量的联合分布[编辑]对离散随机变量而转载 2013-12-10 16:40:31 · 2841 阅读 · 0 评论 -
似然函数
似然函数[编辑]维基百科,自由的百科全书在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接转载 2013-12-10 16:21:14 · 1136 阅读 · 0 评论 -
二项分布
二项分布[编辑]维基百科,自由的百科全书二项分布机率 质量 函数累积分布函数参数 试验次数 (整数) 成功概率 (实数)值域概率密度函数累积分布函数标记{{{notation}}}期望值转载 2013-12-11 09:58:48 · 14865 阅读 · 0 评论 -
SVM入门理论知识
SVM理论SVM入门(一)至(三)Refresh按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]转载 2014-02-28 22:17:27 · 1187 阅读 · 0 评论 -
伯努利分布
伯努利分布[编辑]维基百科,自由的百科全书伯努利分布概率质量函数累积分布函数参数0\," src="http://upload.wikimedia.org/math/8/6/8/868bee94a693ba1bd0d88c83426f32f3.png" style="border:none; vertical-align:转载 2013-12-11 09:56:39 · 7021 阅读 · 0 评论 -
GBDT的基本原理
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2015-04-18 19:57:25 · 2574 阅读 · 0 评论 -
PageRank和PeopleRank的计算公式
PagerRank和PeopleRank的计算公式From paper “PeopleRank: Social Opportunistic Forwarding” PageRank使google成为搜索之王,它用于网页等级的计算。如今,我们已经进入社交网络时代,承载信息的网页不再是我们考虑的焦点,“人”(people)成为网络的核心。如何评估社交网络中每个人的等级(PeopleRa转载 2015-03-30 19:03:50 · 2033 阅读 · 0 评论 -
统计学习方法——CART, Bagging, Random Forest, Boosting
统计学习方法——CART, Bagging, Random Forest, Boosting本文转自:http://blog.csdn.net/abcjennifer/article/details/8164315本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggreg转载 2015-03-28 11:11:54 · 695 阅读 · 0 评论 -
统计学中数据类型
统计学中数据类型 在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位原创 2014-02-27 11:23:27 · 16198 阅读 · 0 评论 -
KL距离(Kullback-Leibler Divergence)
KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q)表示KL距离,计算公式如下:转载 2014-01-03 17:29:58 · 2093 阅读 · 1 评论 -
ARG MIN的含义是什么?
ARG MIN的含义是什么?ARG MIN的含义是什么?最通俗的理解:表示使目标函数取最小值时的变量值From WikipediaIn mathematics, arg max (or argmax) stands for the argument of the maximum, that is to say, the set of points of th转载 2013-12-18 20:43:11 · 2294 阅读 · 0 评论 -
受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)
受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)最近,看了几篇关于RBM的论文,有关RBM的理论公式真心很难理解,尤其是一些涉及概率论的公式推导,但是RBM的具体原理其实还是很简单的。目前本人还在学习中,先简单总结一下自己的理解:RBM产生的背景:玻尔兹曼机是Hinton在1986年提出的一种根植于统计力学的随机神经网络,这种网络中的神经元是随机神经原创 2013-12-11 21:45:41 · 3738 阅读 · 0 评论 -
对多元二次函数的理解
对多元二次函数的理解原创 2014-01-02 20:07:39 · 11217 阅读 · 1 评论 -
PCA降维算法总结以及matlab实现PCA(个人的一点理解)
PCA降维算法总结以及matlab实现PCA(个人的一点理解)转载出处:by watkins songPCA的一些基本资料最近因为最人脸表情识别,提取的gabor特征太多了,所以需要用PCA进行对提取的特征进行降维。本来最早的时候我没有打算对提取的gabor特征进行降维,但是如果一个图像时64*64,那么使用五个尺度八个方向的gabor滤波器进行滤波转载 2014-02-28 12:08:11 · 1448 阅读 · 0 评论 -
对数线性模型之一(逻辑回归), 广义线性模型学习总结
经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下:1转载 2015-04-18 16:10:26 · 1711 阅读 · 0 评论 -
斯坦福机器学习课程:第二讲,线性回归、梯度下降与正规方程组
第二讲,线性回归、梯度下降与正规方程组原创 2014-11-07 11:24:59 · 1033 阅读 · 0 评论 -
用十张图解释机器学习的基本概念
用十张图解释机器学习的基本概念本文转载自:在解释机器学习的基本概念的时候,我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。1. Test and training error: 为什么低训练误差并不总是一件好的事情呢:ESL 图2.11.以模型复杂度为变量的测试及训练错误函数。2. Under and overfitting: 低转载 2015-03-11 10:36:36 · 2447 阅读 · 1 评论 -
机器学习算法基础概念学习总结
机器学习算法基础概念学习总结本文转载自:http://blog.jobbole.com/74716/1.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果转载 2015-03-11 10:39:33 · 821 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习常见算法分类汇总本文转载自:http://blog.jobbole.com/77620/机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个转载 2015-03-11 11:09:07 · 608 阅读 · 0 评论 -
机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)
机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能转载 2015-03-11 11:03:47 · 1106 阅读 · 0 评论 -
机器学习的最佳入门学习资源
机器学习的最佳入门学习资源原文出自:http://blog.jobbole.com/56256/这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者,站在这个角转载 2015-03-11 10:27:55 · 508 阅读 · 0 评论 -
机器学习实战笔记
机器学习实战笔记机器学习的概念:引用Andrew Ng在机器学习课程中说过的一句话“机器学习实际上就是使用一个学习型算法,让机器学习起来”。机器学习能让我们自数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真是含义。实际上,很多应用是很难用程序编写出来的,或者说不能编写出来的,例如手写体识别问题。而借助于机器学习的思想,我们能够挖掘数据背后隐含的特征,从而能够解决该问题。原创 2015-03-12 11:32:04 · 906 阅读 · 0 评论 -
一、K -近邻算法(KNN:k-Nearest Neighbors)
一、K -近邻算法(KNN:k-Nearest Neighbors)算法基本思想:物以类聚,人以群分存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最相邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k原创 2015-03-12 11:34:55 · 5423 阅读 · 0 评论 -
二、决策树(Decision Tree)
二、决策树(Decision Tree)算法基本思想:根据数据集中数据的特征进行逐步的推理、判断,从而达到分类或预测的目的。决策树属于图解法,因为类似于树的结构,因此成为决策树。常见的决策树算法有ID3、C4.5以及CART。算法举例: 在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最原创 2015-03-12 11:42:59 · 872 阅读 · 0 评论 -
欧氏距离与马氏距离的优缺点是什么?
欧氏距离与马氏距离的优缺点是什么? 欧氏距离(Euclidean distance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。 缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在原创 2015-03-12 20:36:13 · 69912 阅读 · 1 评论 -
各种距离汇总
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离转载 2015-03-12 20:29:00 · 752 阅读 · 0 评论 -
PageRank算法简介及Map-Reduce实现
PageRank算法简介及Map-Reduce实现转载自:http://blog.jobbole.com/71431/PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerankPageRank的Page可是认为是网页,表示网页排名,转载 2015-03-30 17:25:56 · 811 阅读 · 0 评论 -
随机采样介绍
由于最近在看deep learning中的RBMs网络,而RBMs中本身就有各种公式不好理解,再来几个Gibbs采样,就更令人头疼了。所以还是觉得先看下Gibbs采样的理论知识。经过调查发现Gibbs是随机采样中的一种。所以本节也主要是简单层次的理解下随机采用知识。参考的知识是博客随机模拟的基本思想和常用采样方法(sampling),该博文是网上找到的解释得最通俗的。其实学校各种带数学公式的知识时转载 2013-12-10 21:44:23 · 1331 阅读 · 0 评论