基于统计的命名实体方法

在这里插入图片描述
不同机器学习方法主要区别体现在对已经向量化的数据执行不同的操作,这些方法通常已经比较成熟有效。
对于特征向量进行处理的常见的模型包括一下几类,
有监督的学习方法:隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等
半监督的学习方法:利用标注的小数据集(种子数据)基于规则进行自举学习

例如:条件随机场

在确定了标注的数据集以后,就需要进行特征提取 。由于想要辨别一个词是否是实体,除了需要这个词本身的词义以外,还需要它上下文的词来帮助判断。
因此,条件随机场使用当前位置的前面 n 个字和后面 n 个字地字本身以及这个字的标注信息作为特征提取的模板,如果 n 过大,那么特征向量会很长,模型执行速度会比较慢,导致效率变差。如果 n 太小,可能又无法全面地捕捉到信息。通常来讲将 n 值取为 2~3。
确定了输入的特征向量以后,需要确定条件随机场的模型初始参数。然后就可以对模型进行训练,设定 loss 值,并对其进行最优化。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值