学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF

词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。

有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧。来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X、Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算公式,I(X; Y) = ∑∑p(x,y)log(p(x,y)/(p(x)p(y)))。互信息,一个随机变量由已知另一个随机变量减少不确定性(理解中文时由于已知英文含义让中文理解更确定),不确定性,熵,I(X; Y) = H(X) - H(X|Y)。对语料不断迭代训练,I(X; Y)不断减小,算法终止条件I(X; Y)不再减小。基于互信息词义消歧方法对机器翻译系统效果最好。缺点,双语语料有限,多种语言能识别出歧义情况也有限的(如中英文同一个词都有歧义)。

基于贝叶斯分类器消歧方法。条件概率,上下文语境,任何多义词含义都跟上下文语境相关。假设语境(context)记c,语义(semantic)记s,多义词(word)记w,多义词w在语境c下有语义s概率,p(s|c),p(s|c) = p(c|s)p(s)/p(c)。p(s|c)中s取某一个语义最大概率,p(c)既定,只考虑分子最大值,s估计=max(p(c|s)p(s))。语境c在自然语言处理中必须通过词表达,由多个v(词)组成,max(p(s)∏p(v|s))。

p(s)表达多义词w某个

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值