数学之美——第四章摘要(谈谈分词)

数学之美——谈谈分词

  1. 分词 中国/航天/官员/应邀/到/美国/开会
  2. 最简单、容易的办法:查字典。其实就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词。
  3. 当我们从左到右扫描时,先遇到“中”这个字,它本身是一个单字词,我们可以在这里做一个切割,但是,当我们再遇到“国”字时,发现它可以和前面的“中”字组成一个更长的词,因此,我们就将分割点放在“中国”的后面。接下来,我们发现“中国"不会和后面的字组成更长的词,那么这个分割点就最终确定了。
  4. 查字典法有问题,发展中国家会被切分成发展/中/国家,上海大学/城/书店
  5. 运用统计语言模型,假设有以下三种分词
    A1,A2,A3…,Ak
    B1,B2,B3 ,Bm
    C1,C2,C3 ,Cn
    最好的分词应该保证分词完后这个句子出现的概率最大。P(A1,A2,A3…,Ak)> P(B1,B2,B3 ,Bm)且P(A1,A2,A3…,Ak)> P(C1,C2,C3 ,Cn)
  6. 计算每种可能性下句子的概率,计算量比较大,可以考虑成动态规划问题,并利用维特比算法快速找到最佳分词。
  7. 语言学家对词语的定义不完全相同,当统计语言模型被广泛应用后,很难讲一个准确率在97%的分词器就一定比另一个准确率为95%的要好,因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们甚至只能讲某个分词器和另一个分词器相比,与人工分词结果的吻合度稍微高一点而已。但现在不存在问题
  8. 应用不同,汉语分词的颗粒大小不同,在机器翻译中,颗粒度应该大一些,联想公司作为整体,很容易找到英语翻译Lenovo,分为两个词,很可能翻译失败。在网页搜索中颗粒度应该小点,比如“清华大学”这四个字如果作为一个词,在对网页分词后,它是一个整体了,当用户查询“清华”时,是找不到清华大学的,这绝对是有问题的。
  9. 让一个分词器同时支持不同层次的词的切分
  10. 分词的不一致性可以分为错误颗粒度不一致两种,错误又分成两类,一类是越界型错误,比如把“北京大学生”分成“北京大学/生”。另一类是覆盖型错误,比如把“贾里尼克”拆成了四个字。这些是明显的错误,是改进分词器时要尽可能消除的。接下来是颗粒度的不一致性,人工分词的不一致性大多属于此类。这一类不一致性在衡量分词器的好坏时,可以不作为错误,以免不同人的看法的不同左右了对分词器的度量。

今天也是爱zz的一天哦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值