NLP第一天

1、NLP知识构成
(1)分词
分词常用的手段是基于字典的最长串匹配,基本可以解决85%的问题,但是歧义词很难。
(2)词性标注
词性一般是指动词、名词、形容词等。标注的目的是表证词的一种隐藏状态,隐藏状态的转移就构成了状态转移序列。
(3)命名实体识别(NER)
从文本中识别具有特定类别的实体
(4)句法分析
句法分析的目的是解析句子中各个成分的依赖关系,往往最终的生成结果是一棵句法分析树。可以解决传统词袋不考虑上下文的问题。
(5)指代消解
(6)情感识别
本质上是分类问题(分成正面、负面(或者分成正面、负面、中性)),通常可以基于词袋模型+分类器、或者 词向量模型+RNN
(7)纠错
可以基于N-Gram纠错、也可以通过字典树、有限状态机等方法进行纠错。
(8)问答系统(QA)
问答系统往往需要语音识别、合成、自然语言处理、知识图谱等多项技术的配合。
2、知识结构
NLP是研究人与机器之间用自然语言进行有效通信的理论和方法。涉及语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型。
其知识体系为:
句法语义分析、关键词抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统。
3、三个层面
(1)第一层面:词法分析
包括分词和词性标注
(2)句法分析
句法分析是对输入的文本以句子为单位,进行分析得到句子的句法结构的处理过程。三种句法分析方法:短语结构句法体系(作用是识别句子中的短语结构以及短语之间的层次句法关系)依存结构句法体系(识别句子中词与词之间的相互依赖关系)深层文法句法分析。
(3)语义分析
其目的是理解句子表达的真实语义。语义角色标注是目前比较成熟的浅层语义分析技术。语义角色标注一般都是在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。第二种方法是基于逻辑表达的语义分析。
自然语言处理系统通常采用联级的形式、即分词、词性标注、句法分析、语义分析分别训练模型。实际使用时、给定输入句子,逐一使用各个模块进行分析,最终得到所有结果。

联合模型:将多个任务联合学习和解码,联合模型通常可以显著提高分析质量,原因是联合模型可以让多个任务互相帮助、同时对于任何单任务而言,人工标注的信息也更多了。然而,联合模型的复杂度更高、速度也更慢。

面临的问题:
1、当样本的数量有限、如何应用深度学习方法和知识信息进行融合提升整个系统的性能,
2、如何能自动学习知识,达到有效应用领域知识,如何通过强化学习提高系统性能
3、如何上下文学习、根据上下文增强对当前任务的决策能力。

基于统计学的NLP到基于深度神经网络的方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值