自然语言处理基础-概念篇(一)

什么是NLP

概念

定义:NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要研究方向,研究用计算机来处理、理解以及运用人类语言(如中文、英文等)。

目的:人与计算机之间可以进行有效通讯。

主要工作:自然语言处理研究表示语言能力,语言应用的模型,通过建立计算机框架来实现这样的语言模型,并不断完善这样的语言模型,并根据语言模型来设计各种实用的系统。

研究任务

  • 机器翻译:计算机具备将一种语言翻译成另一种语言的能力。
  • 情感分析:计算机能够判断用户评论是否积极。
  • 智能问答:计算机能够正确回答输入的问题。
  • 文摘生成:计算机能够准确归纳、总结并产生文本摘要。
  • 文本分类:计算机能够采集各种文章进行主题分析,从而进行自动分类。
  • 舆论分析:计算机能够判断目前舆论导向。
  • 知识图谱:知识点相互连接而成的语义网络。

NLP的发展

萌芽期:1956年以前

1913年马尔科夫提出马尔可夫随机过程与马尔可夫模型的基础就是“手工查频”,萌芽期极具鲜明的经验主义色彩。

快速发展期:1980~1999年

1956年乔姆斯基借鉴香农的工作,把有限状态机作为刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立多种有关语法的数学模型。但是这个时期自然语言处理领域的主流仍然是基于规则的理性主义方法。

突飞猛进期:2000年至今

20世纪80年代初,话语分析取得重大进展,有限状态模型和经验主义研究方法开始复苏。
90年代后,基于统计的自然语言处理开始大放异彩。

NLP相关知识的构成

基本术语

  1. 分词
    分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。
  2. 词性标注
    标注词性的目的是表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。
  3. 命名实体识别
    命名实体识别是指从文本中识别具有特定类别的实体,例如人名,地名,机构名等。
  4. 句法分析
    往往是一种基于规则的专家系统。
  5. 指代消解
    用来表征前文出现过的人名,地名等。
  6. 情感识别
    本质上是分类问题,经常被应用在舆情分析等领域。
  7. 纠错
    搜索技术,输入法等
  8. 问答系统
    类似于机器人的智能问答,目前比较成熟的有:苹果Siri、IBM Watson、微软小冰等。

知识结构

  1. 句法语义分析
  2. 关键词抽取
  3. 文本挖掘
  4. 机器翻译
  5. 信息检索
  6. 问答系统
  7. 对话系统

语料库

  • 中文维基百科
  • 搜狗新闻语料库
  • IMDB情感分析语料库

NLP的几个层面

(1)第一层面:词法分析
(2)第二层面:句法分析
(3)第三层面:语义分析

NLP与AI

NLP是计算机领域与人工智能领域中的一个重要分支。自然语言处理这门学科是融合了计算机科学,语言学,人工智能的交叉学科。

人工智能(Artificial Intelligence,AI)在1955年达特茅斯特会议上被提出,而后人工智能先后经历了三次浪潮,20世纪70年代第一次AI浪潮泡沫破灭后,AI概念转而沉寂期,机器学习,数据挖掘,自然语言处理等方向开始被研究。1990年第二次AI时代,同期日本欲打造“第五代计算机”,当时日本宣称第五代计算机的能力就是能够自主学习,后来第五代计算机研制失败,AI再次沉寂。2008年左右,由于互联网数据大幅增加,算力随之大幅提升,深度学习实现端到端训练,深度学习引领带三次AI时代。人们也逐渐开始将深度学习方法引入NLP领域,在机器翻译,问答系统与自动摘要等方向取得突破。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值