基于最大熵的演化分词算法MEEA的构想

1ICTCLAS在线分词测试baidu知道用例

2007-1-30 baidu知道首页上随机拷贝的问题例子,使用ICTCLAS在线分词的测试结果为:

 

三峡水电站的主要用途是用来干什么的?

听不到回音的距离应该是多少

推荐好看的小说(类似红颜乱,且试天下的小说)

山好水好人不如王牌人好

大家好!想更的学习photoshop图像处理,怎样学习才会更有技巧?

初二数学人教版试题

会员有会员宠物吗

关于自制mp3

宝马760730豪华型相比,优势在哪些方面?请高手指教。谢谢

 

三峡水电站/n /u 主要/b 用途/n /v /v /v /v 什么/r /u ?/w

/v /d /v /q /n /u 距离/n /v /r /v 多少/r

推荐/v 好看/a /u 小说/n (/w 类似/a 红颜/n /a ,/w /c /v 天下/n /u 小说/n )/w

/n /a /n /a /n 不如/v 王牌/n /n /a

大家/r /a /w /v /d /u 学习/v photoshop/x 图像/n 处理/v /w 怎样/r 学习/v /d /v /d /v 技巧/n /w

初二/t /m 学人/n /v /n 试题/n

会员/n /v 会员/n 宠物/n /y

关于/p 自制/v mp3/x

宝马/n 760/m /p 730/m 豪华型/n 相比/v /w 优势/n /p 哪些/r 方面/n /w /v 高手/n 指教/v /w 谢谢/v

2、关于SegWord自适应分词算法MEEA的构想

MEEAMaximum-Entropy-based Evolutionary Algorithm的缩写,我的基本想法是,设计MEEA来完成SegWord的基本分词框架,并进而完成识别与标注以及最终成为自适应分词的一个算法。

算法的主体是遗传算法,通过演化、竞争的方式来搜索分词的最优解;因EA的天性,这是一个并行计算的算法。关于对问题的遗传编码,采取“0-1”串的方式即可,而初始群体的建立,可以采取两种方式的复合:

(1)       若没有词表,则随机生成初始群体;

(2)       否则,依据词表知识半随机的方式生成初始群体。

比如:

      三峡水电站的主要用途是用来干什么的?

若是随机生成的一个染色体,可能是类似于这样:

      三峡水站的主要用途是用什么?

       0 0 1 1 0 1 0 0 0 1 0 1 1 1 0 1 1 1

若是依据词表知识采取半随机的方式生成,则可能类似于:

三峡水电主要用途是用来干什么?

       0 1 0 1 1 1 0 0 0 1  1 1 1 0 0 1 1 1

因为有词表知识的支撑,一部分基因片段还是非常好的,而又有随机因素的情况下,则保证了初始群体的多样性。

遗传算子虽有杂交与变异的基本形式,但绝对不能限制于这两点;我们需要再另行考虑。比如,考虑到分词中的难点在于边界的确定,歧义主要有两种形式为交集型歧义以及组合型歧义,可以根据这种特殊结构设计遗传算子,再比如对于新词,多被分成碎片,而可以考虑引入“团”的概念,设计团操作的遗传算子。诸如此类。

演化策略也可以再另行讨论。我们需要说的是评价函数,这里是Maximum-Entropy-based的体现。之所以说是“基于最大熵”的,是因为我们这个评价函数的主体是依据最大熵的思想,但其实际构成还有一族特征函数(值域空间为[-11])。

大体上评价函数的形式为:

 

其中 即是特征函数族。

在这个评价函数的公式中,若yi的值为1,则这个函数的值即为染色体向量的熵的值:这是一个基本的统计思想。而在实际过程中,yi为区间[-11][1]内的一个实数,其主要意义,则是xi相关的某一些(个)语言知识的定量描述,这些语言知识并不限制是句法的、语义的、语用的亦或是统计的,我们可以举一些例子:

(1)       /v /d /v /q /n /u 距离/n /v /r /v 多少/r

诸如“回音”、“回声”、“激光”等,都可以看作新词(如果词表中没有出现的话)。比如这个例子中的“回音”,如何发现它是一个新词?在我们的分词系统中,除了度量基因片段“11”和“01”的熵以外,还可以采取一些其它知识设计为特征函数来进行度量,比如我们可能计算“回”与“音”的互信息来进行度量,也可能加入“音”与“声”同义,使用“回声”来例证的方式进行度量,目标就是把“回音”作为新词识别出来。

由这样的一个例子可以看出,我们的计算特点是把统计机器学习和语言知识结合起来综合考虑。这就是我们在技术规划中屡次提到的一种方式。

(2)       /n /a /n /a /n 不如/v 王牌/n /n /a

    “王牌”本身是一个名词(可能出现在词表中),但它又是一个组合型歧义,因为

“王/nr /nr”本身也可能是一个人名。通用语感下,在这一句话中应该是做一个人名解[2]

    如何正确的识别?因为是已登陆词的原因,“王牌”的一般评价是远高于“王 牌”的;但作为两个基因片段“ 11 和“ 01 ,我们的特征函数应该是对“专名碎片”如进行特别的关注。同时也要考虑一些固有的搭配团的特征函数,比如“不如小张人好、不如小李人好”等等一些习惯方式的利用。

    需要说明的是,这些问题本身都是非常困难的。我们现在还在讨论算法的框架,以及对问题可能的应对策略。很多问题的解决,要依赖我们SegWord实际的设计,以及对测试数据的进一步分析和综合考虑上。

(3)       初二/t /m 学人/n /v /n 试题/n

这个例子是典型的交集型歧义的处理,其中“人教版”也可以作为新词简略语来看。其中对于“数学”和“学人”的处理比较关键,即基因片段“ 101 和“01?”的处理。但就这一个例子而言,切分成“初二 数学 试题”应该是比较常规的输出;然后再对碎片“人 版”集中处理(团操作?)。我们希望SegWord可以相对容易的做到这些。

 

综上而言,MEEA是一个具有自适应性、不依赖初始词表、并能容纳统计机器学习和综合语言知识利用的算法框架。作为一个基本的算法,用作分词和标注可以满足SegWord目标(1)和(2)的基本要求。但对于目标(3),我们另有深入的考虑。

3、对自适应词库的目标的考虑

这一小节仅提个开头,因为对于SegWord,这是最后、也是最困难的一个目标。很多内容都是需要仔细考虑,并在目标(1)和(2)的基础上进行思辨的。

由上面的讨论可以看出,最大熵是我们的评价函数的基本思想;但特征函数族,则可以称为是语言知识计算的子模型。在前期,这些模型的建立,是由我们来人工设计完成的;也就是说,这些算法是由人来设计的,而不是由机器。

但作为演化计算本身,如果有模型的合适的度量体系,是可以由机器自动建立模型的。此即遗传程序设计(属于演化计算在自动程序设计上的分支)。

建立特征函数族模型的度量体系,由机器来设计特征函数族并进行分词与语言知识的发现,可能是我们追求目标(3)所需要探索的一步。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

percylee

于北京

2007-1-30 草稿

 



[1] [-10]部分是作为惩罚项给出的

[2] 也可以是一个机构名(如联想 人),也可能是一个地名(如山东 人)

 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值