自然语言处理
文章平均质量分 51
hxxiaopei
这个作者很懒,什么都没留下…
展开
-
deep learning(深度学习)介绍
最近接触deep learning,看了一些论文,理论细节比如RBM等,还需要研究,先通过比较通俗的语言组织下。deep learning 并非一种具体的机器学习model,而是一个框架,或者思路。dp用于特征学习,或者特征表示。接触到的svn lg 等机器学习算法,都会有特征提取以及特征选择,这两个决定了模型的质量,靠谱的特征越多,模型的表达能力越强,但是特征抽取受限于使用模型的原创 2014-01-13 17:17:15 · 9588 阅读 · 1 评论 -
先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识,举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D原创 2012-09-30 16:11:36 · 15107 阅读 · 7 评论 -
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
from: http://www.hxxiaopei.com/?p=71读了著名的【Google News Personalization Scalable Online CF】,提及到针对用户聚类,利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi,产生了对plsi的兴趣。plsi是model-based 推荐算法,属于topic(aspect) mo原创 2012-05-30 21:09:43 · 68246 阅读 · 2 评论 -
[学习笔记]分类算法之logistic 回归模型
from: http://www.hxxiaopei.com/?p=117logistic regression是统计学习中经典的分类算法,属于对数线性模型。回归模型:给定一个数据集合(x1,y1)(x2,y2)...(xn,yn),有监督学习构建模型,学习过程就是模型参数θ的学习过程。作为discrimination algorithm,对 P(Y|X;θ )建模,原创 2012-06-01 10:55:52 · 14997 阅读 · 0 评论 -
【输入法技术】模型选择
影响输入法体验的原因有很多,整体来看,我理解有两个,一个是候选词的质量,另一个是整体的交互设计。候选词质量高,意味着用户输入拼音后,用户期望的结果可以放在第一位置,提高输入速度如果细分一下,有3类情况:1.输入句子(长/短),比如,今天真是个好天气2.输入词,比如今天/天气/我们等3.其他情况,比如:英文、人名我们碰到的问题,focus在1,2上面,可以把2归在1上面,原创 2012-03-04 18:25:55 · 1750 阅读 · 0 评论 -
输入法技术
做了2年的输入法,从无到有,一手辛辛苦苦的搞起来,虽然目前用户规模不大,不过从技术上来讲,趟过无数雷,自我感觉针对输入法的基本技术还是有一定的了解,当然还有很多自己搞不定的问题,接下来share一下自己的一些心得,希望有经验的朋友指正,也让大家了解一下输入法是什么。具体会按照下面几个部分方向来写:1.模型训练,包括模型选择、pruning等技术,也包括语料选取以及评价方法2.模型存储以原创 2012-03-02 12:24:32 · 2007 阅读 · 2 评论 -
Markov HMM ME MEMM 整体的一些看法
1.Markov假设 有限历史 以及 平稳。 有限历史指的是和有限的历史相关 平稳指的是 两个状态的关系和时间无关。 2.HMM 给定观察序列{O1,O2,O3...},每个观察Oi对应隐状态序列{S1,S2....Sn}。 HMM解决三个问题: 1.计算观察序列的概率 利用forward算法即可 2.跟定观察序列,计算出对应概率最大的隐状态序列 Viterbi算法,提供O(N*N*T)的复杂度 3.给定观察序列以及状态集合,估计参数 A(状态转移矩阵) B(发射概率) EM算法,原创 2010-09-01 07:59:00 · 2267 阅读 · 0 评论 -
Maximum likelihood estimate
似然估计P(Sample|Model) 已知样本Sample和假定模型Model,模型中有待定参数,P(Sample|Model, α)。 最大似然估计:在给定的model下,找到α,保证P(Sample|Model)的概率最大,也就是最有可能是该Model产生的。 case1: n次独立实验,事件A发生了k次,则事件A发生的概率p是多少。 Model=柏松分布,则服从泊松分布的情况下,事件A发生k次的概率,为P(S|Model,p)= (n,k)*p^k * (1-p)^(n-k) max-l原创 2010-08-24 14:30:00 · 1662 阅读 · 0 评论 -
相似性度量
二元向量的相似性度量(每一维都少的信息量,主要是0,1等有 or 没有属性):Dice:2*|(X∩Y)|/(|X|+|Y|), *2保证∈[0,1],维数不一致时,差别大。jaccard |(X∩Y)/(X∪Y)|,交叠程度小时,值较低交叠系数:|(X∩Y)|/min{|X|,|Y}}, 互相之间的包含性,=1cosine: |X∩Y|/根号(|X|*|Y|) 对于实值:原创 2010-05-18 08:32:00 · 1205 阅读 · 0 评论 -
language model perplexity计算
<br />在lm中需要计算模型在test data的Perplexity,<br />pp = 10^(log(prop)/word);<br />其中 prop为所有sentence的概率的乘积,word为词的数目原创 2010-06-28 08:06:00 · 3573 阅读 · 0 评论 -
输入法之模型剪枝一(基于熵的剪枝)
prunning,剪枝,顾名思义就是减掉那些不重要的。从理论上来讲,剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似,有两种算法 entroy-based以及rank-based。针对model,使用相对熵来刻画D(q||p) 来刻画,保证两个model的熵差别最小,就是entropy-based。如果使用rank(p|q)来描述,保证整个model的rank差别最小原创 2014-06-25 17:15:58 · 7743 阅读 · 0 评论