NLP简介 & 文本预处理

最新推荐文章于 2024-08-07 14:52:38 发布

lo_single

最新推荐文章于 2024-08-07 14:52:38 发布

阅读量1w

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/lo_single/article/details/75975988

版权

本文介绍了自然语言处理的基本概念，包括其历史发展和主要应用。重点讲解了文本获取，如利用爬虫和公开语料库获取数据。在文本预处理方面，讨论了文本提取、分词（如nltk和jieba模块）以及去停用词的重要性。通过这些步骤，为后续的自然语言处理任务做好准备。

摘要由CSDN通过智能技术生成

自然语言处理简介

自然语言处理，顾名思义，就是使用计算机对语言文字进行处理的相关技术以及应用。

Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process large natural language corpora.

早在20世纪50年代，自然语言处理就被提起，但直到20世纪80年代前，自然语言处理的系统大多仅支持有限的词汇并需要大量的人工编写的规则。到了80年代，机器计算能力的飞速提升以及机器学习算法的出现，为自然语言处理领域带来了变革。隐马可夫模型的使用，以及越来越多的基于统计模型的研究，使得系统拥有了更强的对未知输入的处理能力。如今，研究更多的集中于无监督学习或者语义监督学习，比较成功的便是自动翻译系统。近几年，大数据时代的到来，以及深度学习算法的广泛应用，又为自然语言处理带来了新的突破。