第二章 自然语言处理—从规则到统计
语言的数学本质决定了语言处理的解决途径:数学
1.机器智能
科学计算机之父阿兰.图灵提出了让机器与人类交流的可能性。检验机器的人工智能性—图灵测试
自然语言处理的两个阶段:
- 20世纪50年代到70年代,弯路阶段:用电脑模拟人脑,模拟人类学习语言的方式
- 利用数学模型和统计方法进行语言处理阶段
自然语言处理发展历程: - 1956年达特茅斯会议,香农等十位领域专家讨论人工智能,语言处理和神经网络问题,但认知仍停留在让计算机学习自然语言的规则,理解语法,才能处理自然语言。言论支持者被称为“鸟飞派”
- 20世纪60年代,理解自然语言仍停留在规则阶段,认为分析语句和获取语义两个方面为理解关键。
- 直到70年代,由于方向错误,语法分析的复杂度大,加上语言复杂性歧义性等原因,科研进展缓慢
2.从规则到统计
- 1970年后,自然语言处理之父—贾里尼克和领导的IBM华生实验室让统计语言学登上历史舞台。
- IBM华生实验室是使语言处理从规则到统计的关键:斯博格特(Google研究主管副总裁),李开复,拉杰.雷迪(图灵奖获得者,李开复导师)
- 20世纪90年代,基于规则和统计的15年会议之争
- 计算机能力的提升,使得基于统计的语言处理方法得以实现
- 2005年,Google基于统计的翻译系统战胜基于规则的SysTran翻译系统,语言处理正式从基于规则过渡到基于统计