中文分词方法

最新推荐文章于 2019-09-30 10:31:23 发布

sunrise_ccx

最新推荐文章于 2019-09-30 10:31:23 发布

阅读量149

点赞数

原文和相关开源代码

仅根据给定的一段中文文字，怎么提取出其中的汉语词汇呢？有3个指标可以用来决定：分词的出现频率、凝固程度和自由程度。其中后两个尤为重要。

凝固程度

顾名思义，就是这个分词内部字符是紧凑的。比如“我爱家乡”，“明天考试”这类就明显可以再继续分词，凝固程度很低；而“孙悟空”，“冰箱”这类的凝固成都就很高。

具体地，为了算出一个文本片段的凝合程度，我们需要枚举它的凝合方式——这个文本片段是由哪两部分组合而来的。令 p(x) 为文本片段 x 在整个语料中出现的概率，那么我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值，“的电影”的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。

自由程度

这里扩充一下基础知识——“信息熵”。它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ，当你知道它确实发生了，你得到的信息量就被定义为 – log(p) 。 p 越小，你得到的信息量就越大。考虑一个最极端的情况：如果一颗骰子的六个面都是 1 ，投掷它不会给你带来任何信息，它的信息熵为 – log(1) = 0 。什么时候信息熵会更大呢？换句话说，发生了怎样的事件之后，你最想问一下它的结果如何？直觉上看，当然就是那些结果最不确定的事件。

回到本文话题。光看文本片段内部的凝合程度还不够，我们还需要从整体来看它在外部的表现。考虑“被子”和“辈子”这两个片段。我们可以说“买被子”、“盖被子”、“进被子”、“好被子”、“这被子”等等，在“被子”前面加各种字；但“辈子”的用法却非常固定，除了“一辈子”、“这辈子”、“上辈子”、“下辈子”，基本上“辈子”前面不能加别的字了。“辈子”这个文本片段左边可以出现的字太有限，以至于直觉上我们可能会认为，“辈子”并不单独成词，真正成词的其实是“一辈子”、“这辈子”之类的整体。可见，文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话，它应该能够灵活地出现在各种不同的环境中，具有非常丰富的左邻字集合和右邻字集合。

我们用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机。考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”，“葡萄”一词出现了四次，其中左邻字分别为 {吃, 吐, 吃, 吐} ，右邻字分别为 {不, 皮, 倒, 皮} 。根据公式，“葡萄”一词的左邻字的信息熵为 – (1/2) · log(1/2) – (1/2) · log(1/2) ≈ 0.693 ，它的右邻字的信息熵则为 – (1/2) · log(1/2) – (1/4) · log(1/4) – (1/4) · log(1/4) ≈ 1.04 。可见，在这个句子中，“葡萄”一词的右邻字更加丰富一些。

这里，我们把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。

在实际运用中你会发现，文本片段的凝固程度和自由程度，两种判断标准缺一不可。只看凝固程度的话，程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段；只看自由程度的话，程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来，因为它的左右邻字都太丰富了。

sunrise_ccx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中文分词方法

原文和相关开源代码仅根据给定的一段中文文字，怎么提取出其中的汉语词汇呢？有3个指标可以用来决定：分词的出现频率、凝固程度和自由程度。其中后两个尤为重要。凝固程度顾名思义，就是这个分词内部字符是紧凑的。比如“我爱家乡”，“明天考试”这类就明显可以再继续分词，凝固程度很低；而“孙悟空”，“冰箱”这类的凝固成都就很高。具体地，为了算出一个文本片段的凝合程度，我们需要枚举它的凝合方式——这...
复制链接

扫一扫