如何让计算机实现自动的或人机互助的语言处理功能?
如何让计算机实现海量语言信息的自动处理、知识挖掘和有效利用?
基本概念
-
语言:是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。
- 自然语言:是指人类日常使用的语言,如汉语、英语、法语、德语,等等。
-
语言学:对语言的科学研究;研究语言的本质、结构和发展规律的科学语言的两个基本属性——文字、声音。
- 语音学:语言学的一个分支。研究人类语言声音的学科。主要研究语言的发音机制,语音特性和在言谈中的变化规律。
-
自然语言理解:人工智能早期的研究领域之一。从微观上讲,语言理解是指从自然语言到机器内部之间的一种映射。从宏观上讲,语言理解是指机器能够执行人类所期望的某些语言功能。
- 自然语言处理:为了研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
- 计算语言学:利用电子数字计算机进行的语言分析。是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。
- 中文信息处理:针对中文的自然语言处理技术。
NLP研究内容
- 机器翻译
- 信息检索
- 自动文摘
- 问答系统
- 信息过滤
- 信息抽取
- 文档分类
- 文字编辑和自动校对
- 语言教学和文字识别
- 语音识别
- 语音合成
- 说话人识别
NLP发展中的基本问题
- 形态学问题
- 语法学问题
- 语义学问题
- 语用学问题(不同语言环境)
- 语音学问题
NLP发展中的主要困难
- 大量歧义现象
- 词法歧义
- 结构歧义
- 大量未知语言现象
NLP基本研究方法
- 理性主义方法(基于规则的方法)
- 经验主义方法(基于统计的方法)