自然语言处理
文章平均质量分 75
Johnny_Cuii
May all kind hearts be gently treated
展开
-
自然语言期末复习笔记—Morphological Analysis
开始把这个学期的自然语言知识做一个归纳,记录在这个博客里。 Lexical Morphological Analysis 这个部分是关于词形态分析的内容。作为自然语言处理中首先要接触到的内容。 词形态分析包括两个部分: 1:断词 断词在汉语里面很重要,就是中文分词,我们有一个著名的jieba工具在可以很好地完成任务,我们在本学期也做了中文分词地大作业。大家基本用的都是基于统计的n元语法模型,原创 2017-12-25 22:02:49 · 1882 阅读 · 0 评论 -
自然语言期末复习笔记—神经网络语言模型NPLM
这次我们来讲讲神经网络语言模型,我们主要来谈谈为什么要使用神经网络。以及一些关键的点,更详细的内容,比如关于神经网络的结构之类的,就不在这细细讨论了,这方面网上的讨论很多。用n元语法,我们都知道如何表示一一个词的概率。 但是用这种方法有他的麻烦,我们都知道理论上,如果我们的n元数越大,结果应该是越精确的,但是实际中这种方法难以实行,原因在于随着我们的n元数增多,我们对数据数量的需求就越高。也就是说原创 2017-12-26 12:16:30 · 906 阅读 · 0 评论 -
自然语言期末复习笔记—最大熵模型
在这篇博客中,我们针对最大熵模型MaxEnt,最大熵马尔科夫模型MEMM,条件随机场CRF做一下介绍。首先我们来看看MaxEnt,MaxEnt模型中最本质得思想就是我们对未知的事情不要做任何假设。也就是对未知的事情应该等概率对待,这种条件下信息熵往往是最大的。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下原创 2017-12-26 19:57:30 · 409 阅读 · 0 评论 -
自然语言期末复习笔记—最大熵马尔科夫模型MEMM
在这篇博客,我们来谈一谈最大熵马尔科夫模型MEMM 关于这部分内容,我看了一晚上,整个公式都都梳理了之后,愣是没明白这个最大熵体现在哪里,当然我最终查阅了很多资料,终于还是弄明白了,我会在这篇博客上详细讲解。不得不说一下,咱们国内的博客基本都是来自同一个资料源,就比如说这个最大熵马尔科夫模型,搜索来搜索去,都是拿复制转载,有的好的会加点自己的观点。 最大熵马尔科夫型MEMM 这个图是以序列标注原创 2017-12-26 23:53:26 · 1637 阅读 · 0 评论 -
自然语言期末复习笔记-Formal Grammars Of English
我在刚接触自然语言的时候,这部分的内容是最不愿意学的。因为现在深度学习这么火,都是把数据往网络里一扔,跑以下参数就OK了,不用去在意这些细节。 但是随着学习的深入,我越来越更愿意去接触这些知识。在此我想对深度学习在自然语言上的应用说以下自己浅薄的看法。深度学习在语音识别,图像识别上的效果非常好,但是在自然语言上还是没有达到质的飞跃。我曾经听到一种观点我觉得非常对,具体怎么说得已经找不到出处了,但是原创 2017-12-28 20:42:19 · 835 阅读 · 4 评论 -
《LDA数学八卦》读后笔记
LDA看过很多次了,每次都有新的理解(其实就是因为之前的理解不深)。首先要表达对靳志辉的敬仰,毕竟LDA资料里面,这个算是最好的读物了。 看完LDA多次想过要写一篇博客,但是一直没有写,因为我觉得我还没有理解,直到今天,我也不太敢说自己百分百的理解。我就把自己学习过程中的心得,写出来,供初学者参考,少走一些我走过的弯路就OK了。接下来,我会完全按照《LDA数学八卦》的排版顺序来解读。 先大概说下原创 2017-12-13 20:08:13 · 6533 阅读 · 1 评论