![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 59
vincent2610
晚来天欲雪,能饮一杯无
展开
-
条件随机场(Conditional random fields)
来自http://blog.csdn.net/chlele0105/article/details/14897761条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(NLP)、生物信息学、机器视觉及网络智能等领域。转载 2014-09-10 14:46:51 · 770 阅读 · 0 评论 -
win7安装theano
1. 安装Anaconda1) 卸载以前单独安装的python2)Anaconda有2和3之分(对应python2.7和3.5),我选择64位Anaconda2假设安装目录在C:\Anaconda2,添加path环境变量:C:\Anaconda2;C:\Anaconda2\Scripts;C:\Anaconda2\Library\bin;2. 安装MingGW1) 先把之前pa原创 2016-09-30 10:56:45 · 644 阅读 · 0 评论 -
logistic回归和softmax回归
logistic回归在 logistic 回归中,我们的训练集由 个已标记的样本构成:。由于 logistic 回归是针对二分类问题的,因此类标记 。假设函数(hypothesis function): 代价函数(损失原创 2016-09-30 09:58:13 · 2882 阅读 · 0 评论 -
SVM的核函数
看了pluskid的文章中关于SVM核函数,有些地方反复理解了很久才懂,所以对原文的语句进行修改,写下自己的理解过程,以后回忆方便。线性情况下的支持向量机对非线性的数据没有办法处理。例如图中的两类数据(线性不可分),分别分布为两个圆圈的形状,线性SVM没法处理。但是我们可以想到,对于上面的数据集,一个理想的分界应该是一个“圆圈”而不是一条线(原创 2016-07-26 16:27:56 · 2935 阅读 · 0 评论 -
[读书笔记]后向传播算法原理
后向传播算法原理 kk:输入层神经元个数索引 jj:隐藏层神经元个数索引 ii:输出层神经元个数索引 ζ\zeta:训练样本个数索引 从这段截取的三层网络中,我们推导出后向传播算法的一般规律。 首先,总的误差为: E=12∑ζ,i(dζi,oζi)2E=\frac{1}{2}\sum_{\zeta, i}(d_i^\zeta, o_i^\zeta)^2dζid_i^\zeta原创 2017-01-12 14:06:36 · 1175 阅读 · 0 评论 -
马科夫决策过程(Markov Decision Process,MDP)
一个MDP模型包含:状态集合SS行为结合AA奖励函数R(s,a)R(s,a)状态转移矩阵TT 确定性转移S×A→SS\times A\rightarrow S概率性转移S×A→Prob(S)S\times A\rightarrow Prob(S)行为策略π\pi: S→AS\rightarrow A 在状态ss下的应采取的最佳行为aa:a=π(s)a=\pi(s)评价策略π\pi的原创 2017-01-12 15:02:09 · 2969 阅读 · 0 评论 -
BackPropagation Through Time
RNN可以unfold成普通的前馈神经网络,所以可用神经网络的训练方法可以套用。To be continued…参考:http://www.cs.bham.ac.uk/~jxb/INC/l12.pdf原创 2017-01-18 11:21:35 · 1991 阅读 · 0 评论 -
SVM的另一种理解
SVM是一个带约束的最优化问题,目标函数是 min12∥w∥2s.t.yi(wTxi+b)≥1,i=1,2,...min\frac{1}{2} \left\|w \right\|^2 s.t. y_i(w^Tx_i+b)\ge1, i=1, 2,... 从上述式子的意义: 1. 求∥w∥ \left\|w \right\|最小值 2. 同时对于所有的xix_i满足yi(wTxi+b)≥1原创 2017-01-19 16:33:28 · 356 阅读 · 0 评论 -
L1和L2范数正则化
L0范数表示向量中非零元素的个数[2]^{[2]} ∥x∥0=#i,wherexi≠0\left\|\mathbf{x} \right\|_0=\#i, where x_i \neq0 L1范数表示向量中所有元素的绝对值和 ∥x∥1=∑ni=1∣∣xi∣∣\left\|\mathbf{x} \right\|_1=\sum_{i=1}^n\left|x_i\right| L2范数表示欧氏距离原创 2017-01-23 10:54:12 · 4490 阅读 · 0 评论 -
主成分分析PCA
PCA的目的 PCA(Principal Component Analysis)将原始数据降维成另一组数据。转换后的数据有两个要求: ① 同组数据间尽可能发散(方差越大越好) ② 各维数据间尽可能线性无关(协方差越小越好)PCA的原理 首先我们假设原始数据X为m组2维: X=(a1b1a2b2......ambm)X=\begin{pmatrix} a_1& a_2 & ... &原创 2017-03-05 16:37:31 · 471 阅读 · 0 评论 -
Windows7下安装和运行TensorFlow
首先大家都知道,tensorflow目前只能在linux和mac下运行,但是要在windows上运行也是有办法的。答案就是:Docker没错,只要利用Docker的虚拟化技术就可以在windows上跑tensorflow原创 2016-09-06 16:46:27 · 19949 阅读 · 15 评论 -
[读书笔记]How the backpropagation algorithm works(未完待续)
前一段时间看了 Michael Nielsen写的文章,我觉得是目前看到讲神经网络后向传播算法讲的最好的一篇文章了。下面提其精要:符号 wljkw^l_{jk}: the weight for the connection from the kthk^{th} neuron in the (l−1)th(l-1)^{th} layer to the jthj^{th} neuron in the原创 2017-07-15 22:25:30 · 485 阅读 · 0 评论 -
numpy中axis的一些理解
在numpy中,.sum(axis=n)解释:如果,b是一个shap(5, 6, 7, 8)的numpy array, 然后,c = b.sum(axis=2)那么,c的shape将是(5, 6, 8) ,因为“7”就是axis=2,被清除了。而且,c[x, y, z] = sum( b[x, y, : , z])原文:http://stackoverflow.com/原创 2016-12-01 11:06:12 · 3154 阅读 · 0 评论 -
DBSCAN聚类算法原理
概念 ϵ\epsilon邻域: 给定点的ϵ\epsilon为半径的区域核心点(core points): 如果点pp的ϵ\epsilon邻域内的点数大于minPtsminPts,那么pp是核心点直接可达(directly reachable): 核心点pp到其ϵ\epsilon邻域内的所有点是直接可达的。(注意必须是pp必须是核心点)可达(reachable): 如果存在一条路径p1=p原创 2017-08-02 16:26:24 · 1005 阅读 · 0 评论 -
Python下安装Crab推荐系统库
利用Python做推荐系统,可以调用Crab库,里面实现了常见的推荐算法,比如user-based和item-based的协同过滤算法。由于官网介绍不清楚,所以在此记录下自己的安装步骤:1. 从git直接下载代码可以直接下载zip,或用git clone2. 配置C++进入代码根目录,即setup.py文件所在目录,创建setup.cfg文件。内容如下:[build_ext]原创 2016-09-12 22:57:51 · 2500 阅读 · 0 评论 -
条件熵
以前对条件熵的计算存在误解。这里记录一下正确的理解方式注意,这个式子是H(x|yj)而非H(x|y),所以条件熵一般是指某个具体yj的情况下计算的x的熵。而H(x|y) 则是如此计算的:H(x|y) = p(y1)*H(x|y1) + ……+p(yj)*H(x|yj)原创 2016-07-28 16:04:27 · 956 阅读 · 0 评论 -
(EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是转载 2014-09-01 15:03:09 · 466 阅读 · 0 评论 -
从最大似然到EM算法浅解
来自http://blog.csdn.net/zouxy09/article/details/8537620机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的转载 2014-06-01 14:44:39 · 569 阅读 · 0 评论 -
最大熵模型学习笔记
来自http://icek.me/2012/06/最大熵模型学习笔记/这个学期在实验室主要任务是学习最大熵和CRF这种类型的处理信息概率的模型,从一开学开始看CRF发现看不懂,然后返回来看最大熵,看的模模糊糊,稀里糊涂。中间的时候把师兄写的easyME的代码简单读了一遍,结果还是一头雾水。一直到最近要开始做Transfer Learning相关的工作,因为CRF实在是太复杂,所以还转载 2014-05-16 21:14:44 · 643 阅读 · 0 评论 -
【转】高斯混合模型(GMM)
一、高斯模型简介首先介绍一下单高斯模型(GSM)和高斯混合模型(GMM)的大概思想。1.单高斯模型如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存在的有关变量的一种统计规律,例如身高,考试成绩等;而且有很好的数学性质,具有各阶导数,变量频数分布由μ、σ完全决定等等,在许多领域得到广泛应用。在这里简单介绍下高斯分布的概率密度分布函数:转载 2013-12-29 11:19:59 · 1518 阅读 · 0 评论 -
什么叫共轭先验或者共轭分布?
来自http://blog.csdn.net/xianlingmao/article/details/7340099如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗?我之前就常常把这个关系弄错,现在记录如下,以加强印象。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference转载 2014-09-10 09:50:24 · 642 阅读 · 0 评论 -
从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什转载 2014-09-01 15:02:09 · 472 阅读 · 0 评论 -
最大熵理论及其应用
来自http://blog.sina.com.cn/s/blog_73361fab0100zi8x.html一、熵物理学概念宏观上:热力学定律——体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度(克劳修斯,1865)微观上:熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏观参数(波尔兹曼,1872)结论:熵是描述事物无转载 2014-05-16 21:19:02 · 2924 阅读 · 0 评论 -
使用java调用libsvm
来自http://www.xuebuyuan.com/901015.html1.首先,从林智仁教授那里下载使用包libsvm。这里有很多版本的libsvm,我们找到java版本的。2.进入这个文件我们可以看到如下文件结构:红色圈住的文件是一会要引入到java项目里的文件,先复制好,一会ctrl+v。3.在Myeclipse里面创建一个普通的java项目,并在src文转载 2014-03-27 12:46:50 · 3169 阅读 · 1 评论 -
聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut
来自http://blog.csdn.net/abcjennifer/article/details/8170687聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral clustering,Ncut五个算法在聚类中的应用。转载 2014-01-07 16:37:55 · 766 阅读 · 0 评论 -
【转】机器学习-GMM心得体会
机器学习-GMM心得体会amberlife / 2012-07-04这次又看了两天的GMM,之前看过一次,没看的太明白。这次在前段时间补了一阵子概率论外加昨天学习状态好,把GMM看的明白透彻了。本想用python实现下,却发现,那matlab代码让我看得着实头疼,还得在python和matlab之间寻找各种功能相似的代码,郁闷之下,还是没有完成这个程序。各种数学公式,p转载 2013-12-29 11:15:45 · 853 阅读 · 0 评论 -
最大似然估计
通俗的说说最大似然估计吧,文绉绉的概念和严谨的公式推导总是记不住,又让人昏昏欲睡....1.什么是最大似然估计 如果我们知道样本(数据)所服从的概率分布的模型,而不知道该模型中的参数,例如:高斯模型的参数:均值u,及方差sigma。最大似然估计就是用来估计模型参数的统计学方法。2.如何估计 我们有什么可以利用的信息呢?样本,概率分布模型。根据什么道理来估计呢转载 2014-08-24 14:55:17 · 642 阅读 · 0 评论 -
SVM如何避免过拟合
过拟合(Overfitting)表现为在训练数据上模型的预测很准,在未知数据上预测很差。过拟合主要是因为训练数据中的异常点,这些点严重偏离正常位置。我们知道,决定SVM最优分类超平面的恰恰是那些占少数的支持向量,如果支持向量中碰巧存在异常点,那么我们傻傻地让SVM去拟合这样的数据,最后的超平面就不是最优的。如图1所示,深红色线表示我们希望训练得到的最优分类超平面,黑色虚线表示由于过拟合得到原创 2016-07-26 10:48:07 · 27942 阅读 · 1 评论 -
python生成灰度图
from PIL import Imageimport numpy as npimport matplotlib.pyplot as pltimg = Image.open('lena.jpg')img = np.array(img)if img.ndim == 3: img = img[:,:,0]plt.imshow(img, cmap = plt.cm.gray_r)plt.原创 2017-09-05 13:43:44 · 13780 阅读 · 1 评论