【Paddle NLP入门打卡】Chapter3 理论课2:词法分析及其应用


本文基于百度飞浆Paddle平台

项目地址:

『NLP打卡营』实践课1:词向量应用演示

VisualDL官方说明文档

Embedding源码地址


NLP 打卡Day2

Lesson 3 理论课:词法分析及其应用 学习笔记

1. 词法分析概念


词法分析指对计算机语言心态进行分析,并判断词的结构和类别等

主要有下面三个任务:

  • 分词
  • 词性标注
  • 实体识别

具体任务如下所示:

1

句法分析、文本分类、信息抽取等应用

?如果以字为粒度:对于词语来说太小了,如“张”含有张开或者姓氏之意

2. 词法分析技术的发展


  • 基于词典
    • 字符串匹配:向前、向后最大匹配
    • 统计语言模型:N-Gram
  • 基于序列标注
    • 统计方法:HMM, CRF等
    • 深度学习方法:LSTM+CRF, FLAT等

2.1 字符串匹配

  • 基于字符串匹配方法
    • 前向/后向/最大匹配、最少词数、策略组合
    • 戴表应用:MMSEG分词、IK分词
    • 优点:简单可控
    • 缺点:难以解决歧义、新词的问题
  • 基于语言的模型
    • 先基于词表匹配
    • 将所有可能的路径画出来(包括单字的)
    • 计算所有路径中概率最大的路径出来
    • 应用:jieba、ICTCLAS(NLPIR)
    • 缺点:难以解决新词的问题

2

结巴

如上图,两项的乘积,虽然上面的P概率大,但是对应有惩罚项(/n)

  • 基于序列标注的方法

    • 一开始不知道那个分词,我们可以对词语中的每个字打上一个标签

    • 对于每一个字,只需要分辨是否是词头还是词序即可

    • BIO转换

3

B:序列词头

I:序列词序(相当于一个短语里面除第一个字之外的字)

O:在序列中表示Other,在命名体识别中我们不关心的词

  • RNN实现序列标注

rnn

仅仅使用RNN的问题:标签有顺序的,会有以下逻辑错误

为解决这一问题,引出了CRF的线性链条件随机场

4

OOV:Out Of Vocabulary

一般训练使用Bi-LSTM+CRF

crf

3. 实践案例LAC


lac


写在最后

各位看官,都看到这里了,麻烦动动手指头给博主来个点赞8,您的支持作者最大的创作动力哟!
<(^-^)>
才疏学浅,若有纰漏,恳请斧正
本文章仅用于各位同志作为学习交流之用,不作任何商业用途,若涉及版权问题请速与作者联系,望悉知

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值