![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
sunmenggmail
这个作者很懒,什么都没留下…
展开
-
矩阵求导计算法则
转自:http://blog.sina.com.cn/s/blog_4a033b090100pwjq.html求导公式(撇号为转置):Y = A * X --> DY/DX = A'Y = X * A --> DY/DX = AY = A' * X * B --> DY/DX = A * B'Y = A' * X' * B --> DY/DX = B * A'转载 2012-05-17 22:57:42 · 63424 阅读 · 6 评论 -
What is the expectation maximization algorithm?
http://www.nature.com/nbt/journal/v26/n8/full/nbt1406.html对于最大似然概率的推导可以参考本系列中的文章也就是说要求的是抛硬币A是正面的概率p(A), 和抛硬币B是正面的概率p(B)一共做了五组实验,其中三组是抛10次A,正面的次数。对于这三组的现象的概率是 p(data|A)=p(h|A)*(1-p(h|a)转载 2013-11-17 23:39:22 · 2039 阅读 · 0 评论 -
关于凸优化的一些简单概念
http://www.cnblogs.com/tornadomeet/p/3300132.html没有系统学过数学优化,但是机器学习中又常用到这些工具和技巧,机器学习中最常见的优化当属凸优化了,这些可以参考Ng的教学资料:http://cs229.stanford.edu/section/cs229-cvxopt.pdf,从中我们可以大致了解到一些凸优化的概念,比如凸集,凸函数转载 2013-11-01 11:36:47 · 73228 阅读 · 5 评论 -
图模型(graphical model, GM)的表示
http://blog.csdn.net/xianlingmao/article/details/5774435图模型(graphical model)是一类用图来表示概率分布的一类技术的总称。它的主要优点是把概率分布中的条件独立用图的形式表达出来,从而可以把一个概率分布(特定的,和应用相关的)表示为很多因子的乘积,从而简化在边缘化一个概率分布的计算,这里的边缘化指的是给定n个转载 2013-10-23 19:58:58 · 1775 阅读 · 0 评论 -
最大似然估计和最大后验概率
http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html1. 最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高转载 2013-10-24 20:47:57 · 4511 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
http://blog.csdn.net/xianlingmao/article/details/7919597http://www.the-idea-shop.com/article/215/understanding-why-the-method-of-lagrange-multipliers-workshttp://ocw.mit.edu/courses/mechanical-e转载 2013-10-15 22:17:14 · 2598 阅读 · 1 评论 -
浅谈深度学习(Deep Learning)的基本思想和方法
http://blog.csdn.net/xianlingmao/article/details/8478562深度学习(Deep Learning),又叫Unsupervised Feature Learning或者Feature Learning,是目前非常热的一个研究主题。本文将主要介绍Deep Learning的基本思想和常用的方法。一. 什么是Deep Lea转载 2013-10-15 20:13:00 · 1134 阅读 · 0 评论 -
word2vec
太让人惊奇了,用其做单词的聚类,竟然把 red green white blue purple brown pink black colours colors ruby gray 自动聚成一类训练语料大概是1G的英语文本,一定要好好研究研究原创 2013-10-10 22:28:58 · 1083 阅读 · 0 评论 -
gradient boosted regression tree
这个算法出自Greedy function Approximation – A Gradient Boosting Machine作者实在是有够抽象,一个不复杂的算法让他讲的那么复杂本人也参考了这篇博客http://www.cnblogs.com/LeftNotEasy/archive/2011/01/02/machine-learning-boosting-and-gradient-原创 2013-05-21 19:56:50 · 9910 阅读 · 1 评论 -
线性回归和logistic回归
转自:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html红字处是个人的理解1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者转载 2012-04-10 11:13:03 · 4033 阅读 · 0 评论 -
几个简单数学分布
1. 概率密度函数假如我们要预测明天的下雨量,x表示下雨的量,f(x)就表示为概率密度,我们随便画一个概率密度,他们的关系如下:其中概率密度函数f(x)并不代表概率,只是代表当前x点的概率密度,类似于速度不代表位移一样,我们把所有可能发生事件概率相加应该为1(上图面积):∫+∞−∞f(x)dx=1其中f(x)>=0,也可以计算下雨量在某个范围转载 2013-12-05 11:32:17 · 47816 阅读 · 3 评论 -
DeepID人脸识别算法之三代
DeepID人脸识别算法之三代转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/42091205DeepID,目前最强人脸识别算法,已经三代。如今,深度学习方兴未艾,大数据风起云涌,各个领域都在处于使用深度学习进行强突破的阶段,人脸识别也不例外,香港中文大学的团队使用卷积神经网络学习特征,将之用于人脸识别的子领域人脸转载 2015-05-06 08:13:32 · 5373 阅读 · 0 评论 -
caffe 加入 cudnn编译
首先要使用cudnn v2,ALL PLATFORMS Extract the cuDNN archive to a directory of your choice, referred to below as . Then follow the platform-specific instructions as follows.LINUX原创 2015-04-24 10:54:33 · 10276 阅读 · 0 评论 -
cuda-convnet2编译
有个问题是conv2需要的是libcblas.so, 但是服务器没有这个动态库,只有相应的静态库其实动态库和静态库链接的方法是一样的,但是静态库对库名排列的顺序是由要求的,动态库没有所以对于util/Makefile中LINK_LIBS := -L$(ATLAS_LIB_PATH) -latlas -lcblas 要改为LINK_LIBS := -L$(ATLAS_LIB_原创 2015-04-24 14:58:15 · 1927 阅读 · 0 评论 -
opencv
http://segmentfault.com/blog/epsilon/1190000000597080那么图像数据时如何在Mat中存储的呢?Class Matclass CV_EXPORTS Mat{public: // ... a lot of methods ... ... /*! includes several bit-fields转载 2015-03-25 20:21:31 · 735 阅读 · 0 评论 -
auc-roc
http://bubblexc.com/y2011/148/很多时候,我们希望对一个二值分类器的性能进行评价,AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem),使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子:测试样本中有A类样本90个,B 类样本转载 2013-04-29 10:03:04 · 4105 阅读 · 1 评论 -
Convolutional Neural Networks卷积神经网络
9.5、Convolutional Neural Networks卷积神经网络 卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络转载 2014-10-30 15:32:14 · 1826 阅读 · 0 评论 -
个人阅读的Deep Learning方向的paper整理
http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65个人阅读的Deep Learning方向的paper整理,分了几部分吧,但有些部分是有交叉或者内容重叠,也不必纠结于这属于DNN还是CNN之类,个人只是大致分了个类。目前只整理了部分,剩余部分还会持续更新。一 RNN1 Recurrent n转载 2014-03-10 10:42:01 · 23957 阅读 · 4 评论 -
二项分布和Beta分布
http://hyry.dip.jp/tech/slice/slice.html/42本文通过实例介绍二项分布和Beta分布的含义,并使用pymc对抛硬币进行模拟实验,从而获得Beta分布。二项分布和Beta分布In [15]:%pylab inlineimport pylab a转载 2013-12-06 00:10:53 · 30418 阅读 · 1 评论 -
l1和l2正则
http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/Sparsity 是当今机器学习领域中的一个重要话题。John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到:Some current chal转载 2013-04-29 21:14:39 · 6963 阅读 · 0 评论 -
最优化相关理论
发现一个特别好的将最优化基础的博客http://www.codelast.com/在最优化的领域中,这“法”那“法”无穷多,而且还“长得像”——名字相似的多,有时让人觉得很迷惑。在自变量为一维的情况下,也就是自变量可以视为一个标量,此时,一个实数就可以代表它了,这个时候,如果要改变自变量的值,则其要么减小,要么增加,也就是“非左即右“,所以,说到“自变量在某个方向上移动转载 2013-04-28 10:33:56 · 1624 阅读 · 0 评论 -
svd
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特转载 2013-02-03 00:23:56 · 5560 阅读 · 0 评论 -
矩阵基本概念
转自:http://www.cnblogs.com/ydxt/archive/2012/03/15/2398207.html2.4.1 矩阵的秩1)定义 在m×n矩阵中,任选r个行和r个列,将位于这r个行和r个行的交叉点上的个元素所构成的一个r阶行列式 (2-38) 叫做A的一个r阶转载 2012-05-18 20:32:28 · 14304 阅读 · 0 评论 -
logistic regression
'''Created on Oct 27, 2010Logistic Regression Working Module@author: Peter'''from numpy import *import matplotlib.pyplot as pltdef loadDataSet(): dataMat = []; labelMat = [] fr = open原创 2012-04-19 15:54:18 · 902 阅读 · 0 评论 -
svm的smo算法
转自:http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html向作者表示感谢!11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SV转载 2012-04-10 13:38:57 · 13071 阅读 · 3 评论 -
crf
看到不错的介绍crf的资料转自:http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/原来crf是通过下降法调节参数的又了解到无约束的最优化问题比较容易求解的,只要是可以求导的,不管是二次、三次.....可以用最速下降法,牛顿法.....Introduction转载 2012-04-05 20:26:49 · 1489 阅读 · 0 评论 -
非参贝叶斯
之前研究过一段时间的非参贝叶斯,但是对为什么叫“非参”,以及dirichlet process不是很了解,今天看到一篇神文,深入浅出的娓娓道来为什么叫“非参”:传统的聚类在开始的时候就要设定类别的数目,而“非参”是指随着数据的不断增加,新的类别不断加入这篇神文更是简历了 餐厅问题和 dirichlet process 的关系转自:http://blog.echen.me/转载 2012-04-05 19:52:23 · 7386 阅读 · 3 评论 -
pca 和lda区别
http://blog.csdn.net/scyscyao/article/details/5987581这学期选了门模式识别的课。发现最常见的一种情况就是,书上写的老师ppt上写的都看不懂,然后绕了一大圈去自己查资料理解,回头看看发现,Ah-ha,原来本质的原理那么简单,自己一开始只不过被那些看似formidable的细节吓到了。所以在这里把自己所学的一些点记录下来,供备忘,也供参考转载 2012-10-15 08:36:48 · 53758 阅读 · 6 评论 -
Logistic regression (逻辑回归) 概述
http://hi.baidu.com/grandyang/item/e1df4ecf195eb816b77a240eLogistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归转载 2012-11-29 13:29:28 · 972 阅读 · 0 评论 -
简单的机器学习笔试题
就不说是哪个公司的了这个题目很简单,但是考察的也很细,很全面去年做这个题目就完全被虐了,今年想起来,下面是草稿原创 2013-04-24 09:11:41 · 1392 阅读 · 0 评论 -
lda和pca
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.htmlLDA: LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是Fisher’s Li转载 2013-02-02 23:52:03 · 2362 阅读 · 0 评论 -
对矩阵求导
原创 2013-04-22 23:09:55 · 871 阅读 · 0 评论 -
分布式计算与机器学习
也算探索了几个月吧,在给自己定位。定位是,分布式系统,机器学习,自然语言处理,计算广告,推荐。这里的分布式不是指基础计算平台,比如分布式存储之类的,而是指分布式计算。公司不像实验室可以给你一个高性能的巨型计算机,一个T的内存,几十个高性能CPU,在这个环境下,只需要像普通pc编写程序即可。公司有的是几千台普通电脑,用些电脑实现分布式计算。而这里的分布式有两种原创 2013-04-07 22:06:53 · 3194 阅读 · 2 评论 -
Hacker News与Reddit的算法比较
http://www.cnblogs.com/zhengyun_ustc/archive/2010/12/15/amir.htmlHacker News与Reddit的算法比较郑昀 20101213Hacker News是Y Combinator旗下的一个新闻频道,属于digg类产品,SEOmoz曾经在2008年7月隆重推出Reddit、Stumbl转载 2013-02-26 12:47:36 · 2682 阅读 · 0 评论 -
simhash进行文本查重
http://blog.csdn.net/lgnlgn/article/details/6008498有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling WWW上存在大量内转载 2013-02-01 10:26:51 · 3589 阅读 · 0 评论 -
使用svm的一个常见错误
http://blog.sina.com.cn/s/blog_6ae183910101cxbv.html几天前,我在微博上面问了一个问题“一个两类分类问题,5400个训练样本,600个测试样本(测试、训练样本不交叠),特征10000维,用RBF核的SVM训练,得到的模型在测试集上测试误差为50%(和随机猜想一样)。而如果改用线性核,则准确率可以达到80%。这正常吗?”包转载 2013-01-03 10:16:27 · 1338 阅读 · 0 评论 -
判别式和产生式的区别
这个题目遇到两次自然语言处理中,经常要处理序列标注问题(分词、词性标注、组快分析等),为给定的观察序列标注标记序列。令o和s分别代表观察序列和标记序列, 根据贝叶斯公式,1 生成模型和判别模型的定义对o和s进行统计建模,通常有两种方式:(1)生成模型构建o和s的联合分布p(s,o) = p(s) *p(o|s)(2原创 2012-11-29 13:37:30 · 7363 阅读 · 0 评论 -
二次规划的一个很好的课件网站
http://www.engineering.uiowa.edu/~dbricker/nlp_lecture_notes.html原创 2012-03-17 20:12:54 · 904 阅读 · 0 评论