中文分词之左右完整性及稳定性

本文探讨中文分词中的左右完整性与稳定性概念。稳定性通过计算词组在文档中出现的频率与各组成词频率的关系来评估,值越接近1表示越稳定。例如,“名牌大学”稳定性为1,而“就业形势”则较低,说明后者作为组合词的可能性不大。
摘要由CSDN通过智能技术生成

一、      概念:

新闻案例:

“out-100”的说法也在考生父母之间流传,即在全校排名100名开外时,基本与名牌大学无缘的意思。此外,“入学考试代理父母”也成为新风尚,主要指子女就读于名牌大学的父母受别人委托,辅导其他家庭的子女高考。

     在这条新闻的两句话中,两次出现了“名牌大学”的字样,但是,在分词的时候出现这样的结果:



很明显,在这里“名牌”两字单独拿出来,没有任何意义;“大学”两字单独拿出来语义又有所偏差。只有联合起来“名牌大学”才有完整的意义。这就是说,在文章中,一些特定的组合词需要凑在一起才能表达其中的意思。如果候选词B在文中与候选词A和候选词C都一直同时出现并且出现不只一次,那么词“ABC”的组合很有可能是一个有意义的对象词。对于候选词B来讲,它既是左非完整,也是右非完整,只有“ABC”组合了,这个词才是左右完整。

稳定性:

3.3 非稳定性评价对象的过滤

定义评价对象的稳定性:针对本文中候选评价对象 Object是基于规则获得的,通常是由多个词(w1w2…w3)组成的。用各个词之间的紧密耦合程度,来衡量 Object的稳定性,本文采用下式计算获得:


其中, f(Object) 表示 Object在一篇文档中出现的频率;f(wi )表示组成 Object 的词wi在该文档中出现的频率; m表示组成该 Object的词个数; S(Object ) 表示评价对象的稳定性。

如“刻录 /n  /qv”候选对象是由“刻录”和“盘”2个词组成的,即 m

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值