NLP
tianyouououou
这个作者很懒,什么都没留下…
展开
-
计算机语言学笔记(五)隐马尔科夫模型
4 隐马尔可夫模型4.1 模型一阶马尔科夫模型可以描述为一个二元组( S, A ) ,S是状态的集合,而A是所有状态转移概率组成的一个n行n列的矩阵,其中每一个元素aij为从状态i转移到状态j的概率 。在坛子与小球问题中,如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。隐马尔可夫过程是一...原创 2019-07-12 21:25:33 · 1041 阅读 · 0 评论 -
计算机语言学笔记(三)N-gram和数据平滑
3 N-gram和数据平滑3.1 语言建模语言建模:对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、,手写体识别,机器翻译,信息检索等领域。在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性 较大的识别结果。对于给定句子s= w1w2w3…,使用链...原创 2019-07-12 15:38:38 · 1055 阅读 · 0 评论 -
计算机语言学笔记(二)现代汉语切分研究
2 现代汉语词语切分研究汉语自动切分:把字串自动转换为词串。英语中的切分更容易。2.1 为什么要进行汉语切分TTS或语音合成中,只有正确切词才能知道正确的发音,只有正确的切词,才能正确变音,只有正确切词,才能解决轻声问题。信息检索中,切分有助于提高信息检索的准确率。词语的计量分析中,可以进行词频统计。等等等等…汉语切词也是深层汉语分析的基础。2.2 基本方法最大匹配法:正向最大...原创 2019-07-10 19:07:04 · 604 阅读 · 0 评论 -
计算机语言学笔记(一)计算机语言学概论
1 计算机语言学概论计算机语言学:通过建立形式化的计算模型来分析、理解和处理自然语言的学科。自然语言处理为了解决歧义等问题,常采用下面的对策。交互式处理:人机互助进行处理。受限语言:限定处理文本的领域。受控语言:限定语言的词汇和句法,降低复杂度。1.1 计算机语言学研究方法研究方法:规则驱动的方法,数据驱动的方法和二者融合的方法。规则驱动的方法:语言学家对语言规律总结,形成规则知识...原创 2019-07-10 17:59:59 · 1383 阅读 · 0 评论 -
计算机语言学笔记(九)特征结构与合一运算
9 特征结构与合一运算上下文无关文法上下文无关文法为句法知识的形式化提供了一个有效的工具。同时,对于上下文无关文法,存在像Earley算法、广义LR算法等一系列有效的算法,进行句法分析。然而,利用上下文无关文法描写自然语言,不但可以生成自然语言中的合法句子,也可以产生大量自然语言中不合法的句子,存在所谓的过度生成问题。一致性问题:限定词和名词时间的单复数一致。主语和谓语在人称和数方面保...原创 2019-07-14 19:58:16 · 502 阅读 · 2 评论 -
计算机语言学笔记(八)基于上下文无关文法的句法分析
8 基于上下文无关文法的句法分析句法分析导引以词为单位的分析技术:词语切分、形态分析、词类标注。以句为单位的分析技术:句法分析。以篇为单位的分析技术:指代分析。句法分析关心句子的组成规律。句子成分分析句子是词的线性序列,但词和词之间结合的松紧程度并不一样。句子在构造上具有层次性,较小的成分还可以进一步组成较大的成分。不同性质的成分可以有不同的句法功能和分布,可以区分成不同的类型。...原创 2019-07-14 15:09:56 · 1475 阅读 · 1 评论 -
计算机语言学笔记(七)有限状态技术和形态分析
7 有限状态技术和形态分析7.1 形态分析简介形态学研究屈折语中词的构成规则。英语、德语等时屈折语。汉语是孤立语。日语是黏着语。词通常是语素组成,语素是语言中最小的意义单位。英语中的语素语素可以分成两大类:词干(提供词的主要意义)和词缀(提供词的附加意义,修改词干义或改变词的语法功能)语素构成词的方法:1.屈折变化:词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态...原创 2019-07-14 09:22:31 · 515 阅读 · 0 评论 -
计算机语言学笔记(六)词类自动标注
6 词类自动标注6.1 汉语中词的分类汉语中词分类的依据主要是词的分布特征,或者说主要依据词的语法功能。词的语法功能主要指词在句法结构里所能占据的语法位置。(充当句法成分的能力和组合成短语的能力)名词通常表示事物的名称、动词通常表示动作和行为、形容词表示事物的性质和状态。实词和虚词:1.实词可以充当主语、谓语和宾语。虚词则不可以。2.实词有实在的意义,表示事物、动作、行为、变化、性质...原创 2019-07-13 19:47:28 · 506 阅读 · 0 评论 -
计算机语言学笔记(四)熵和语言模型评价
4 熵和语言模型评价4.1 熵变长编码:给小概率信息赋以较长的编码,给大概率消息赋以较短的编码。信息论中用熵描述随机变量平均信息量。H(X)≥0,等号表明确定场(无随机性)的熵最小。H(X)≤log|X|,等号表明等概场的熵最大。联合熵:条件熵:链式规则:H(X,Y) = H(X) + H(Y|X)信息量的大小随着消息长度的增加而增加,为了便于比较,一般使用熵率的概念,熵率一般...原创 2019-07-12 16:23:00 · 388 阅读 · 0 评论