初入中文信息处理

最新推荐文章于 2022-03-21 20:06:31 发布

杨陈菊

最新推荐文章于 2022-03-21 20:06:31 发布

阅读量497

点赞数

分类专栏：中文信息处理文章标签：人工智能中文信息处理自然语言处理

本文链接：https://blog.csdn.net/Yangchenju/article/details/88957760

版权

中文信息处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近往中文信息处理的方向进行研究，查阅资料，翻看书籍，做了一下总结。

一、什么是图灵测试？

一个封闭的小屋，屋外一个人，屋内依次进入一个人和一台计算机，屋外的人并不知道屋内是人还是计算机，屋外的人向屋内的人或计算机提问，根据里面的回答判断屋内是人还是计算机。
上世纪50年代，图灵在具有跨时代意义的论文《计算机器与智能》上提出“机器能思考吗”的问题，并为此设下了“图灵测试”。

二、自然语言处理

“自然语言处理”的英文是"Natural Language Processing"，简写为NLP，注意了，以后见到“NLP”要知道是啥，不然就让人笑掉大牙了。这里在扩展几个：


计算语言学	Computational Linguistics
计量语言学	Quantitative Linguistics
数理语言学	Mathenmatical Linguistics
自然语言理解	Natural Language Understanding
人类语言技术	Human Language Technology
中文信息处理	Natural Information Processing

三、研究内容

研究内容依次为：

汉字信息处理。研究汉字的输入输出和编码。
词的信息处理。中文的词语之间内有空格，没有词性变化，比起其他语言，需要分词、确定词性、词义等。
句子的信息处理。对词处理之后的词/词性进行剖析，即句法分析。
句子语义表达与分析。语义形式化。

基础资源：语料库和知识库

四、中文信息处理的难点

1.歧义

歧义是自然语言处理中的一大难点，包括语音歧义、分词歧义、结构歧义、词义歧义.

2. 语法

中文语法与西文语法有很大不同，例如英语可以利用其语法形态上的变化，如词性、时态、语态等在语言的表示形式上有所区别，而汉语
一来一模一样的字可以有不同的词性，即同一个词有多种词性而表示形式不变；
二来语法千变万化，灵活性大，至今没有一个健全的规则来描述它；
三来汉语语序多种多样，不同的语序又有不用的含义，目前可以说是毫无规则；
四来汉语多省略，只要语义清晰，主要成分、虚词助词等都可以省略且不影响表达。

五、研究路线

在自然语言的研究方法上，历来有理性主义和经验主义。
理性主义一规则方法为主，经验主义以统计方法为主（机器学习）。他们各有利弊，相互也争了很久，目前从效果上基于统计的方法以及该全面超越了基于规则的方法，但是当语料规模增长到一定程度时，其精度必然回达到一个极限。
基于规则的方法受到了语言学知识的限制，总是不能找到一套向牛顿、爱因斯坦等人找到的通用的定律一样的理论。
基于统计的方法总是照顾多数忽略少数，只是出于对语料的概率拟合，并没有真正理解语言，很难走向语义理解。

杨陈菊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初入中文信息处理

最近往中文信息处理的方向进行研究，查阅资料，翻看书籍，做了一下总结。一、什么是图灵测试？一个封闭的小屋，屋外一个人，屋内依次进入一个人和一台计算机，屋外的人并不知道屋内是人还是计算机，屋外的人向屋内的人或计算机提问，根据里面的回答判断屋内是人还是计算机。上世纪50年代，图灵在具有跨时代意义的论文《计算机器与智能》上提出“机器能思考吗”的问题，并为此设下了“图灵测试”。自然语言处理“自...
复制链接

扫一扫

专栏目录