作者:禅与计算机程序设计艺术
1.简介
1970年代中期,美国科学家提出了一个重要的问题:如何建造出具有自我意识的机器?这是一个极其重大的技术课题,在当时,这被认为是对人类技术发展前景的深刻考验。很快,随着这项工作的推进,自然语言处理也成为了深度学习的一个分支领域,从而也成为自然语言理解(NLU)、文本分析、机器翻译等各个领域的研究热点之一。
在自然语言处理这一领域,主要的任务可以概括为:自动处理、理解和生成人类的语言。在过去几十年里,自然语言处理由以下三个阶段组成:词法分析、句法分析、语义理解、文本分类、信息抽取等,这些任务将自然语言转换为计算机能够处理的形式,并进行一系列的操作。而最近十年,随着深度学习的火爆,自然语言处理又演变为更加复杂的过程。
在此,笔者将阐述自然语言处理的任务定义、方法、工具及挑�惑。希望能够帮助读者更好地理解自然语言处理,并且指导读者解决相关问题。
2.基本概念及术语
1.词汇(Word): 是自然语言的一组符号或文字。
2.句子(Sentence): 是词汇的有序排列,通常在某种意义上相连,构成一个完整的陈述。
3.段落(Paragraph): 是两个或多个句子组成的文本块。
4.文档(Document): 是由