NLP概述及流派

本文介绍了自然语言处理(NLP)的基础概念,其作为计算机科学、人工智能及语言学的交叉学科,旨在使计算机理解和处理人类语言。文章详细阐述了NLP的研究目标、处理层次(包括语音识别、光学字符识别、词法分析、信息抽取、句法分析、语义分析与篇章分析),并对比了基于规则和基于统计学的处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.基础概念

自然语言处理(Nature Language Processing,NLP)是一门融合了计算机科学,人工智能以及语言学的交叉学科。

2.研究目标

通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能。


3.自然语言的处理层次
  • 语音、图像和文本

    自然语言处理系统的输入源一共有3个,语音,图像和文本,但前两者存储的信息总量没有文本多,所以需要先转换为文本再处理,转换分别称为语音识别(Speech Recognition)和光学字符识别(OCR)。

  • 词法分析

    主要任务是将文本分隔为有意义的词语 (中文分词),消除每个词语的歧义(词性标注),再识别出一些特殊的专有名词(命名体识别)。

  • 信息抽取

    词法分析之后,文本已经呈现结构化趋势。显示为有意义的单词列表。根据单词与标签,我们可以抽取出一部分有用的信息,从简单的高频词到高级算法提取关键词

  • 句法分析

    词法分析只能得到零散的词汇信息,计算机不知道词语之间的关系。句法分析的目标就是,得到句子中词语之间的关系

  • 语义分析与篇章分析

    相对于句法分析来看,语义分析侧重于语义而非语法,它包括词义消歧(确定一个词在语境中的含义)、语义角色标注(标注句子中谓语与其他成分的关系),语义依存分析(分析句子中词语之间的关系)


4.自然语言处理的流派
  • 基于规则的专家系统

    设计专家针对需求而设计许多规则组成的系统,比较死板僵硬与不稳定。

  • 基于统计学的方法

    收集制作语料库,让机器根据语料库自动学习这些规则(与机器学习相结合)


5.总结

机器学习是人工智能的子集,而NLP则是人工智能与语言学,计算机科学的交集。这个交集虽然小,它的难度却很大。为了实现理解自然语言这个宏伟目标,人们尝试了规则系统,并最终发展到基于大规模语料库的统计学习系统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值