自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理研究的内容
- 机器翻译:实现一种语言到另一种语言的自动翻译。
- 自动文摘:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
- 信息检索:信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种及两种以上语言的信息检索叫做跨语言信息检索。
- 文档分类:文档分类也称文本分类或信息分类,其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如主题或内容划分等)实现自动归类。
- 问答系统:通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并作出相应的回答。
- 信息过滤:通过计算机系统自动识别和过滤那些满足特定要求的文档信息。
- 信息抽取:指从文本中抽取特定的事件或事实信息,有时候又称事件抽取。
- 文本挖掘:有时又称