初入中文信息处理

最近往中文信息处理的方向进行研究,查阅资料,翻看书籍,做了一下总结。

一、什么是图灵测试?

  • 一个封闭的小屋,屋外一个人,屋内依次进入一个人和一台计算机,屋外的人并不知道屋内是人还是计算机,屋外的人向屋内的人或计算机提问,根据里面的回答判断屋内是人还是计算机。
    上世纪50年代,图灵在具有跨时代意义的论文《计算机器与智能》上提出“机器能思考吗”的问题,并为此设下了“图灵测试”。

二、自然语言处理

自然语言处理”的英文是"Natural Language Processing",简写为NLP,注意了,以后见到“NLP”要知道是啥,不然就让人笑掉大牙了。这里在扩展几个:

计算语言学Computational Linguistics
计量语言学Quantitative Linguistics
数理语言学Mathenmatical Linguistics
自然语言理解Natural Language Understanding
人类语言技术Human Language Technology
中文信息处理Natural Information Processing

三、研究内容

研究内容依次为:

  1. 信息处理。研究汉字的输入输出和编码。
  2. 的信息处理。中文的词语之间内有空格,没有词性变化,比起其他语言,需要分词、确定词性、词义等。
  3. 子的信息处理。对词处理之后的词/词性进行剖析,即句法分析。
  4. 句子语义表达与分析。语义形式化。

基础资源:语料库和知识库

四、中文信息处理的难点

1.歧义

歧义是自然语言处理中的一大难点,包括语音歧义、分词歧义、结构歧义、词义歧义.

2. 语法

中文语法与西文语法有很大不同,例如英语可以利用其语法形态上的变化,如词性、时态、语态等在语言的表示形式上有所区别,而汉语
一来一模一样的字可以有不同的词性,即同一个词有多种词性而表示形式不变;
二来语法千变万化,灵活性大,至今没有一个健全的规则来描述它;
三来汉语语序多种多样,不同的语序又有不用的含义,目前可以说是毫无规则;
四来汉语多省略,只要语义清晰,主要成分、虚词助词等都可以省略且不影响表达。

五、研究路线

在自然语言的研究方法上,历来有理性主义经验主义
理性主义一规则方法为主,经验主义以统计方法为主(机器学习)。他们各有利弊,相互也争了很久,目前从效果上基于统计的方法以及该全面超越了基于规则的方法,但是当语料规模增长到一定程度时,其精度必然回达到一个极限。
基于规则的方法受到了语言学知识的限制,总是不能找到一套向牛顿、爱因斯坦等人找到的通用的定律一样的理论。
基于统计的方法总是照顾多数忽略少数,只是出于对语料的概率拟合,并没有真正理解语言,很难走向语义理解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值