数学之美
Mikael_旧少年
不热爱写代码的码农~
展开
-
数学之美——文字和语言vs数字和信息
本章讲述了文字,数字和语言的历史,提到了一些概念和主题,包括通信的原理和信息传播模型 (信源)编码和最短编码 解码的规则,语法 聚类 校验位 双语对照文本,语料库和机器翻译 多义性和利用上下文消除歧义性...原创 2018-12-31 19:30:54 · 215 阅读 · 0 评论 -
数学之美——自然语言处理—从规则到统计
看书过程中记一些好玩的 上世纪七十年代,基于规则的句法分析(包括文法分析或者语义分析)很快走到了尽头,而对语义的处理则遇到了更大的麻烦,首先,自然语言中词的多义性很难用规则表达清楚,而严重依赖于上下文,甚至是“世界的知识”或者常识,1970年以后的统计语言学的出现使得自然语言处理重获新生,并取得非凡成就。 自然语言处理的应用在过去25年里发生了巨大的变化,比如对自动问答的需求很...原创 2019-01-01 16:21:15 · 719 阅读 · 1 评论 -
数学之美——统计语言模型
贾里尼克的出发点很简单:一个句子是否合理,就要看它的可能性大小如何,至于可能性就用概率来衡量。 马尔可夫提出了一种偷懒但还颇为有效的方法,假设任意一个词Wi出现的概率只同它前面的词Wi-1有关,这种假设在数学上称为马尔可夫假设。 高阶语言模型,N-1阶马尔可夫假设等。 实际应用中最多的是N=3的三元模型,更高阶的很少使用。 模型的训练,零概率问题和平滑方法。 古德-图灵估计的原理:对于没...原创 2019-01-01 16:43:06 · 397 阅读 · 1 评论 -
数学之美——谈谈分词
一般来讲,应用不同,汉语分词的颗粒度大小应该不同,因此不同的应用应有不同的分词系统。 中文分词的方法也被应用到英语处理,主要是手写体识别中。 分词的错误可以分为越界型错误和覆盖型错误。越界型错误:把“北京大学生”分为“北京大学-生”。覆盖型错误:把“贾里尼克”拆成四个字。 不断完善复合词的词典,是近年来中文分词工作的重点。...原创 2019-01-01 21:48:45 · 226 阅读 · 0 评论