基于最大熵的演化分词算法MEEA的构想

最新推荐文章于 2022-12-24 10:26:16 发布

原创最新推荐文章于 2022-12-24 10:26:16 发布 · 3.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #语言 #图像处理 #algorithm #框架 #测试

SegWord 专栏收录该内容

9 篇文章

订阅专栏

本文提出了一种基于最大熵演化算法(MEEA)的自适应分词方法，旨在解决中文分词中的边界确定、新词识别及歧义消除等问题。通过遗传算法实现分词最优解的搜索，并结合统计机器学习与语言知识。

1、ICTCLAS在线分词测试baidu知道用例

2007-1-30 在baidu知道首页上随机拷贝的问题例子，使用ICTCLAS在线分词的测试结果为：

三峡水电站的主要用途是用来干什么的?

听不到回音的距离应该是多少

推荐好看的小说(类似红颜乱,且试天下的小说)

山好水好人不如王牌人好

大家好！想更的学习photoshop图像处理，怎样学习才会更有技巧？

初二数学人教版试题

会员有会员宠物吗

关于自制mp3

宝马760与730豪华型相比，优势在哪些方面？请高手指教。谢谢

三峡水电站/n 的/u 主要/b 用途/n 是/v 用/v 来/v 干/v 什么/r 的/u ?/w

听/v 不/d 到/v 回/q 音/n 的/u 距离/n 应/v 该/r 是/v 多少/r

推荐/v 好看/a 的/u 小说/n (/w 类似/a 红颜/n 乱/a ,/w 且/c 试/v 天下/n 的/u 小说/n )/w

山/n 好/a 水/n 好/a 人/n 不如/v 王牌/n 人/n 好/a

大家/r 好/a ！/w 想/v 更/d 的/u 学习/v photoshop/x 图像/n 处理/v ，/w 怎样/r 学习/v 才/d 会/v 更/d 有/v 技巧/n ？/w

初二/t 数/m 学人/n 教/v 版/n 试题/n

会员/n 有/v 会员/n 宠物/n 吗/y

关于/p 自制/v mp3/x

宝马/n 760/m 与/p 730/m 豪华型/n 相比/v ，/w 优势/n 在/p 哪些/r 方面/n ？/w 请/v 高手/n 指教/v 。/w 谢谢/v

2、关于SegWord自适应分词算法MEEA的构想

MEEA是Maximum-Entropy-based Evolutionary Algorithm的缩写，我的基本想法是，设计MEEA来完成SegWord的基本分词框架，并进而完成识别与标注以及最终成为自适应分词的一个算法。

算法的主体是遗传算法，通过演化、竞争的方式来搜索分词的最优解；因EA的天性，这是一个并行计算的算法。关于对问题的遗传编码，采取“0-1”串的方式即可，而初始群体的建立，可以采取两种方式的复合：

（1）若没有词表，则随机生成初始群体；

（2）否则，依据词表知识半随机的方式生成初始群体。

比如：

三峡水电站的主要用途是用来干什么的?

若是随机生成的一个染色体，可能是类似于这样：

三峡水电站的主要用途是用来干什么的?

0 0 1 1 0 1 0 0 0 1 0 1 1 1 0 1 1 1

若是依据词表知识采取半随机的方式生成，则可能类似于：

三峡水电站的主要用途是用来干什么的?

0 1 0 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1

因为有词表知识的支撑，一部分基因片段还是非常好的，而又有随机因素的情况下，则保证了初始群体的多样性。

遗传算子虽有杂交与变异的基本形式，但绝对不能限制于这两点；我们需要再另行考虑。比如，考虑到分词中的难点在于边界的确定，歧义主要有两种形式为交集型歧义以及组合型歧义，可以根据这种特殊结构设计遗传算子，再比如对于新词，多被分成碎片，而可以考虑引入“团”的概念，设计团操作的遗传算子。诸如此类。

演化策略也可以再另行讨论。我们需要说的是评价函数，这里是Maximum-Entropy-based的体现。之所以说是“基于最大熵”的，是因为我们这个评价函数的主体是依据最大熵的思想，但其实际构成还有一族特征函数（值域空间为[-1，1]）。

大体上评价函数的形式为：

其中即是特征函数族。

在这个评价函数的公式中，若y_i的值为1，则这个函数的值即为染色体向量的熵的值：这是一个基本的统计思想。而在实际过程中，y_i为区间[-1，1][1]内的一个实数，其主要意义，则是x_i相关的某一些（个）语言知识的定量描述，这些语言知识并不限制是句法的、语义的、语用的亦或是统计的，我们可以举一些例子：

（1）听/v 不/d 到/v 回/q 音/n 的/u 距离/n 应/v 该/r 是/v 多少/r

诸如“回音”、“回声”、“激光”等，都可以看作新词（如果词表中没有出现的话）。比如这个例子中的“回音”，如何发现它是一个新词？在我们的分词系统中，除了度量基因片段“11”和“01”的熵以外，还可以采取一些其它知识设计为特征函数来进行度量，比如我们可能计算“回”与“音”的互信息来进行度量，也可能加入“音”与“声”同义，使用“回声”来例证的方式进行度量，目标就是把“回音”作为新词识别出来。

由这样的一个例子可以看出，我们的计算特点是把统计机器学习和语言知识结合起来综合考虑。这就是我们在技术规划中屡次提到的一种方式。

（2）山/n 好/a 水/n 好/a 人/n 不如/v 王牌/n 人/n 好/a

“王牌”本身是一个名词（可能出现在词表中），但它又是一个组合型歧义，因为

“王/nr 牌/nr”本身也可能是一个人名。通用语感下，在这一句话中应该是做一个人名解[2]。

如何正确的识别？因为是已登陆词的原因，“王牌”的一般评价是远高于“王牌”的；但作为两个基因片段“ 11 ” 和“ 01 ” ，我们的特征函数应该是对“专名碎片”如姓进行特别的关注。同时也要考虑一些固有的搭配团的特征函数，比如“不如小张人好、不如小李人好”等等一些习惯方式的利用。

需要说明的是，这些问题本身都是非常困难的。我们现在还在讨论算法的框架，以及对问题可能的应对策略。很多问题的解决，要依赖我们SegWord实际的设计，以及对测试数据的进一步分析和综合考虑上。

（3）初二/t 数/m 学人/n 教/v 版/n 试题/n

这个例子是典型的交集型歧义的处理，其中“人教版”也可以作为新词简略语来看。其中对于“数学”和“学人”的处理比较关键，即基因片段“ 101 ” 和“01？”的处理。但就这一个例子而言，切分成“初二数学人教版试题”应该是比较常规的输出；然后再对碎片“人教版”集中处理（团操作？）。我们希望SegWord可以相对容易的做到这些。