自然语言处理简单介绍

目录

1 自然语言处理概述

2 自然语言处理过程与方法

3 中文语料库

4 自然语言处理应用举例

5 参考资料

 

 

1 自然语言处理概述

1.1 概念分析

自然语言处理(NLP,Natural Language Processing)是使用自然语言同计算机进行通讯的技术,自然语言处理是计算机科学领域与人工智能领域的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。相对于诸如计算机语言之类人造语言而言,自然语言是指我们日常生活中使用的语言,如中文,英语等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大,它不断推进AI技术应用的升级,帮助各个产业实现数字化转型。

1.2 发展历程

20世纪50年代是人工智能与自然语言处理的萌芽期,出现了许多奠基性的工作。

20世纪80年代后,统计模型给人工智能和自然语言处理领域带来了革命性的进展,人们开始标注语料库用于开发和测试NLP模块,1988年隐马尔可夫模型被用于词性标注,1990年IBM公布了第一个统计机器翻译系统,1995年出现第一个健壮的句法分析器。

2010年之后语料库规模、硬件计算力都得到了很大提升,为神经网络的复兴创造了条件。但随着标注数据的增加,传统模型的准确率提升越来越不明显,人们需要更复杂的模型,于是深层的神经网络重新回归研究者的视野。

2020 年,NLP 技术仍然在快速发展的车道上。例如内容生成方向,以 GPT-3 为代表的预训练技术不仅在 NLP、甚至在整个 AI 领域都受到了广泛关注。人机对话方向,谷歌去年初发布了 Meena、Facebook 发布了 Blenderbot等一系列聊天机器人推动了人机对话技术的发展。同时NLP也推动了多模态智能、数字内容生成、图神经网络等技术的发展。

1.3 难点

自然语言处理的困难关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。同一种语言形式可能具有多种含义,而正确的消歧需要大量的知识,包括语言学知识和世界知识。尤其是中文的词与词之间缺少天然的分隔符,于是中文文字处理比英文等西方语言多一步确定词边界的工序,即“中文自动分词”任务。自动分词处于中文自然语言处理的底层,意味着它是理解语言的第一道工序,但正确的单词切分又需要取决于对文本语义的正确理解。NLP中基于上下文的挑战,如讽刺、特定领域的语言、歧义和基于方面的情感分析,将用现有的方法加以解释,以克服这些挑战。

 

2 自然语言处理过程与方法

2.1 过程任务

自然语言处理过程的层次任务包括数据输入源、词法分析、信息抽取、语法分析,下面做简要分析。(1) 数据输入源:自然语言处理系统的输入源有语音、图像与文本。其中,语音和图像虽然正引起越来越大的关注,但受制于存储容量和传输速度,它们的信息总量还是没有文本多。(2)词法分析:中文分词、词性标注和命名实体识别都是围绕词语进行分析,所以统称词法分析。词法分析主要任务是将文本分隔为有意义的词语,确定每个词语的类别和浅层的歧义消除,并且识别出一些较长的专有名词。(3)信息抽取:根据这些单词与标签,可以抽取出一部分有用的信息,从简单的高频词到高级算法提取出的关键词,也可以根据词语之间的统计学信息抽取出关键短语乃至句子,更大颗粒度的文本对用户更加友好。(4)语法分析:句法分析分为句法结构分析和依存关系分析。以获取整个句子的句法结构为目的称为完全句法分析,而以获得局部成分为目的的句法分析称为局部分析,依存关系分析简称依存分析。

2.2 处理方法简介

从广义的角度来讲,目前自然语言处理的研究从大的角度可分为两类方法,理性主义与经验主义方法。理性主义方法主张建立符号处理系统,经验主义方法主张通过建立特定的数学模型。例如基于规则的专家系统、基于统计的学习方法、基于经典机器学习的方法、基于深度学习的方法等。

 

3 中文语料库

3.1 语料库集合

语料(语言材料)是语言学研究的内容,是构成语料库的基本单元。我们把一个文本集称为语料库,当有几个这样的文本集合的时候,我们称之为语料库集合。

3.2 语料库介绍

(1)词性标注语料库指的是切分并为每个词语指定一个词性的语料。当前最大的汉语词性标注语料库是《汉语词性标注语料库》,它是对人民日报1998年全文(约2600万字)进行了人工词性标注的语料库。(2)汉语中常用的句法分析语料库主要是汉语树库,树库大体上分为短语结构树库和依存结构树库。短语结构可以用来提取短语,目的是分析句子的产生过程,一般采用句子的结构成分描述句子的结构。依存结构树库是根据句子的依存结构而建立的树库。依存结构描述的是句子中词与词间直接的句法关系,相应的树结构也称为依存树。(3)文本分类语料库指的是人工标注了所属分类的文章构成的语料库。相较于上面介绍的语料库,文本分类语料库的数据量明显要大得多。

 

4 自然语言处理应用举例

(1)情感分析是一种有趣的NLP和数据挖掘任务,用于衡量人们的观点倾向。利用RNN,LSTM等技术的情感分析有助于检查顾客对商品或服务是否满意。人们愿意在社交网络上分享他们的观点,搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高消费者的购买需求。

(2)问答系统是一种涉及到构建能够用自然语言自动回答人类提出的问题的系统。比如Siri、谷歌等虚拟助理。在回答用户问题时,要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索和匹配,然后将获取的答案反馈给用户。

(3)个性化推荐。自然语言处理可以依据大数据和历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好,实现对用户意图的精准理解,同时对语言进行匹配计算,实现精准匹配。

(4)网络舆情管理逐渐成为维护社会安全稳定的重要部分,利用诸如人工智能、NLP等计算机专业知识来识别并管理社交平台的异常舆论是相关行业从业者应行之事,同时树立并弘扬科学且正确的价值观同样重要,这也需要我们在教育领域不断探索适合各年龄阶段受众人群的教育方法。

 

5 参考资料

[1]Shaik T, Tao X, Li Y, et al. A Review of the Trends and Challenges in Adopting Natural Language Processing Methods for Education Feedback Analysis[J]. IEEE Access, 2022.

[2]Li J, Chen X, Hovy E, et al. Visualizing and understanding neural models in nlp[J]. arXiv preprint arXiv:1506.01066, 2015.

[3]https://www.infoq.cn/article/FLfNXYHX24wbtqwpL3KU

[4]https://zhuanlan.zhihu.com/p/80630002

[5]https://www.ai-indeed.com/aboutNews/1842.html

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
机器学习(Machine Learning)是一种人工智能(Artificial Intelligence)的方法,通过使用数据和统计模型来让计算机系统从经验中学习并改进性能,而无需明确地编程。机器学习的目标是让计算机能够自动从数据中发现模式、做出预测或进行决策。 自然语言处理(Natural Language Processing,NLP)是机器学习在处理和理解人类语言的应用领域。NLP涉及计算机对文本或语音数据进行处理、理解、生成和与之交互的技术。NLP的目标是让计算机能够理解、解释和生成自然语言,实现与人类之间的自然语言交流。 在NLP中,机器学习被广泛应用于多个任务,例如文本分类、命名实体识别、情感分析、机器翻译、问答系统等。机器学习算法可以从大量的语言数据中学习模式和规律,然后将这些知识应用于实际的自然语言处理任务中。 常见的机器学习方法在NLP中包括:朴素贝叶斯分类器、支持向量机(SVM)、决策树、随机森林、深度学习(如循环神经网络和卷积神经网络)等。这些方法可以用于处理文本数据的特征提取、分类、序列标注、语言生成等任务。 总而言之,机器学习是一种让计算机能够从数据中学习和改进的方法,而自然语言处理是机器学习在处理和理解人类语言的应用领域。通过机器学习方法,NLP能够实现对文本和语音数据的理解和处理,从而实现更智能和人性化的自然语言交互。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值