《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素

1.为什么要词性标注词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类(又是分类…)。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的,革命既然不能一蹴而就,那就先瞄准简单可实现的目标,
摘要由CSDN通过智能技术生成

1.为什么要词性标注

词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类(又是分类…)。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。

词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的,革命既然不能一蹴而就,那就先瞄准简单可实现的目标,基于此完成一些不需要理解语义也能完成的任务:如信息提取。

2.影响词性标注准确率的因素

     a 训练数据量。这个基本是废话,因为所有基于机器学习的任务都希望数据越  

       多越好。有道是”It’s not whohas the best algorithm that wins.It’s who has  

       the data.”;

     b 词性标记集。有些词可以具备多种词性,即词性歧义,词性标记集越大,则

        潜在歧义越多,标注任务也越困难(极端:如果只有一种词性,就永远不会

        有歧义了,当然这是没有任何实用价值的);

    c 训练集和真实数据集的差异。 简单理解就是用于训练的文本 和 真实应用的

      文本差异较大,导致训练得到的模型只能拟合训练集。这一点也适用于其他 

   

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值