最近往中文信息处理的方向进行研究,查阅资料,翻看书籍,做了一下总结。
一、什么是图灵测试?
- 一个封闭的小屋,屋外一个人,屋内依次进入一个人和一台计算机,屋外的人并不知道屋内是人还是计算机,屋外的人向屋内的人或计算机提问,根据里面的回答判断屋内是人还是计算机。
上世纪50年代,图灵在具有跨时代意义的论文《计算机器与智能》上提出“机器能思考吗”的问题,并为此设下了“图灵测试”。
二、自然语言处理
“自然语言处理”的英文是"Natural Language Processing",简写为NLP,注意了,以后见到“NLP”要知道是啥,不然就让人笑掉大牙了。这里在扩展几个:
计算语言学 | Computational Linguistics |
计量语言学 | Quantitative Linguistics |
数理语言学 | Mathenmatical Linguistics |
自然语言理解 | Natural Language Understanding |
人类语言技术 | Human Language Technology |
中文信息处理 | Natural Information Processing |
三、研究内容
研究内容依次为:
- 汉字信息处理。研究汉字的输入输出和编码。
- 词的信息处理。中文的词语之间内有空格,没有词性变化,比起其他语言,需要分词、确定词性、词义等。
- 句子的信息处理。对词处理之后的词/词性进行剖析,即句法分析。
- 句子语义表达与分析。语义形式化。
基础资源:语料库和知识库
四、中文信息处理的难点
1.歧义
歧义是自然语言处理中的一大难点,包括语音歧义、分词歧义、结构歧义、词义歧义.
2. 语法
中文语法与西文语法有很大不同,例如英语可以利用其语法形态上的变化,如词性、时态、语态等在语言的表示形式上有所区别,而汉语
一来一模一样的字可以有不同的词性,即同一个词有多种词性而表示形式不变;
二来语法千变万化,灵活性大,至今没有一个健全的规则来描述它;
三来汉语语序多种多样,不同的语序又有不用的含义,目前可以说是毫无规则;
四来汉语多省略,只要语义清晰,主要成分、虚词助词等都可以省略且不影响表达。
五、研究路线
在自然语言的研究方法上,历来有理性主义和经验主义。
理性主义一规则方法为主,经验主义以统计方法为主(机器学习)。他们各有利弊,相互也争了很久,目前从效果上基于统计的方法以及该全面超越了基于规则的方法,但是当语料规模增长到一定程度时,其精度必然回达到一个极限。
基于规则的方法受到了语言学知识的限制,总是不能找到一套向牛顿、爱因斯坦等人找到的通用的定律一样的理论。
基于统计的方法总是照顾多数忽略少数,只是出于对语料的概率拟合,并没有真正理解语言,很难走向语义理解。