自然语言处理
文章平均质量分 51
蓁蓁尔
A goal is a dream with a deadline.
展开
-
概率语言模型的分词方法(上)
概率语言模型 分词原创 2017-02-28 19:55:05 · 810 阅读 · 0 评论 -
概率语言模型的分词方法(下)
评价语言模型的好坏–困惑度(perplexity)原创 2017-02-28 20:06:30 · 500 阅读 · 0 评论 -
隐马尔可夫模型与词性标注(上)
1. 隐马尔科夫模型(Hidden Markov Models,HMM)关于隐马尔科夫模型,在我爱自然语言处理上有一个很生动形象的解释:http://www.52nlp.cn/hmm-learn-best-practices-two-generating-patterns我们至少要知道:(1)HMM是一个数学模型,包括隐藏状态集合、观察状态集合、观察状态的初始概率向量π, 隐藏状态间的原创 2017-03-01 19:36:45 · 3424 阅读 · 0 评论 -
隐马尔可夫模型与词性标注(下)
1.词性标注(Part Of Speech tagging,POS tagging)任务:给定词序列:W=w1,w2,.....,wn, 寻找词性标注序列T=t1,t2,.....,tn, 使得P(t1,t2,.....,tn|w1,w2,.....,wn)最大。原创 2017-03-01 19:56:14 · 1257 阅读 · 0 评论 -
隐马尔科夫模型的应用实例:中文分词
什么问题用HMM解决现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系。比如天气预测,如果我们知道“晴天,多云,雨天”之间的转换概率,那么如果今天是晴天,我们就可以推断出明天是各种天气的概率,接着后天的天气可以由明天的进行计算。这类问题可以用 Markov 模型来描述。进一步,如果我们并不知道今天的天气属于什么状况,我们只知道今明后三天的水藻转载 2017-04-22 21:52:01 · 3594 阅读 · 1 评论 -
word2vec
没太有什么公式,从实践角度来看的,主要是skip gram 模型。 一。 1. 首先搞明白为什么要用低维实值向量表示word,而不使用one-hot来表示。 “one-hot”:将 word 转化为含有一个1,其他都是0的稀疏向量,向量的维度等于词表大小,只有对应位置上的数字为1,其他都为0。 (1)one-hot太稀疏,维度太高之后不易处理; (2)最主要的是 one-hot 捕捉不到任原创 2017-07-02 16:37:19 · 5932 阅读 · 2 评论