深度理解机器学习5-词性标注的应用

词性标注的应用

就像文本预处理技术通过鼓励机器只关注重要的细节来帮助机器更好地理解自然语言一样,词性标注帮助机器实际解释文本的上下文,从而理解它。虽然文本预处理更像是一个清理阶段,词性标注实际上是机器开始输出有关语料库的有价值信息的部分。

机器以多种方式处理自然语言:·词性标注有助于区分同音异义词——拼写相同但含义不同的词。例如,单词“play”可以指进行活动时的动词,也可以指将在舞台上表演的戏剧作品中的名词。词性标注器可以通过确定词性标注来帮助机器理解单词“play”在什么上下文中使用。·词性标注建立在句子和分词需求的基础上,这是自然语言处理的基本任务之一。·词性标注被其他算法用于执行更高级别的任务,我们将在本章讨论命名实体识别。·词性标注也有助于情感分析和问题回答的过程。

词性标注的类型

词性标注器可以是有监督学习类型和无监督学习类型。

1.基于规则的词性标注器

这些词性标注器的工作方式几乎和它们的名字一样——按照规则。给标注器一组规则的目的是确保它们在大多数情况下准确地标记一个模棱两可或未知的单词,因此大多数规则仅在标注器遇到模棱两可或未知的单词时才适用。

2.随机的词性标注器

随机词性标注器是使用除了基于规则的方法之外的任何方法来给单词指定标注的标注器。因此,有许多方法属于随机范畴。当确定单词的词性标注时,所有结合统计方法(如概率和频率)的模型都是随机模型。

1)单位法或词频法

最简单的随机词性标注器仅根据一个单词与一个标签一起出现的概率将词性标注分配给模棱两可的单词。这基本上意味着,标注器在训练集中发现的与某个单词最常链接的任何标注,都会被分配给同一个单词的模糊实例。

2)n元法

这基于前面的方法。名称中的n代表在确定一个单词属于特定词性标注的概率时要考虑多少个单词。在单位标注器中,n=1,因此只考虑单词本身。增加n值会导致标注器计算n个词性标注的特定序列一起出现的概率,并基于该概率为单词分配标签。

3)隐马尔可夫模型

隐马尔可夫模型结合了词频法和n元法。马尔可夫模型是描述一系列事件或状态的模型。每种状态发生的概率仅取决于前一事件所达到的状态。这些事件基于观察。隐马尔可夫模型的“隐藏”方面是事件可能隐藏的一组状态。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值