1、ICTCLAS在线分词测试baidu知道用例
2007-1-30 在baidu知道首页上随机拷贝的问题例子,使用ICTCLAS在线分词的测试结果为:
三峡水电站的主要用途是用来干什么的?
听不到回音的距离应该是多少
推荐好看的小说(类似红颜乱,且试天下的小说)
山好水好人不如王牌人好
大家好!想更的学习photoshop图像处理,怎样学习才会更有技巧?
初二数学人教版试题
会员有会员宠物吗
关于自制mp3
宝马760与730豪华型相比,优势在哪些方面?请高手指教。谢谢
三峡水电站/n 的/u 主要/b 用途/n 是/v 用/v 来/v 干/v 什么/r 的/u ?/w
听/v 不/d 到/v 回/q 音/n 的/u 距离/n 应/v 该/r 是/v 多少/r
推荐/v 好看/a 的/u 小说/n (/w 类似/a 红颜/n 乱/a ,/w 且/c 试/v 天下/n 的/u 小说/n )/w
山/n 好/a 水/n 好/a 人/n 不如/v 王牌/n 人/n 好/a
大家/r 好/a !/w 想/v 更/d 的/u 学习/v photoshop/x 图像/n 处理/v ,/w 怎样/r 学习/v 才/d 会/v 更/d 有/v 技巧/n ?/w
初二/t 数/m 学人/n 教/v 版/n 试题/n
会员/n 有/v 会员/n 宠物/n 吗/y
关于/p 自制/v mp3/x
宝马/n 760/m 与/p 730/m 豪华型/n 相比/v ,/w 优势/n 在/p 哪些/r 方面/n ?/w 请/v 高手/n 指教/v 。/w 谢谢/v
2、关于SegWord自适应分词算法MEEA的构想
MEEA是Maximum-Entropy-based Evolutionary Algorithm的缩写,我的基本想法是,设计MEEA来完成SegWord的基本分词框架,并进而完成识别与标注以及最终成为自适应分词的一个算法。
算法的主体是遗传算法,通过演化、竞争的方式来搜索分词的最优解;因EA的天性,这是一个并行计算的算法。关于对问题的遗传编码,采取“0-1”串的方式即可,而初始群体的建立,可以采取两种方式的复合:
(1) 若没有词表,则随机生成初始群体;
(2) 否则,依据词表知识半随机的方式生成初始群体。
比如:
三峡水电站的主要用途是用来干什么的?
若是随机生成的一个染色体,可能是类似于这样:
三峡水电站的主要用途是用来干什么的?
0 0 1 1 0 1 0 0 0 1 0 1 1 1 0 1 1 1
若是依据词表知识采取半随机的方式生成,则可能类似于:
三峡水电站的主要用途是用来干什么的?
0 1 0 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1
因为有词表知识的支撑,一部分基因片段还是非常好的,而又有随机因素的情况下,则保证了初始群体的多样性。
遗传算子虽有杂交与变异的基本形式,但绝对不能限制于这两点;我们需要再另行考虑。比如,考虑到分词中的难点在于边界的确定,歧义主要有两种形式为交集型歧义以及组合型歧义,可以根据这种特殊结构设计遗传算子,再比如对于新词,多被分成碎片,而可以考虑引入“团”的概念,设计团操作的遗传算子。诸如此类。
演化策略也可以再另行讨论。我们需要说的是评价函数,这里是Maximum-Entropy-based的体现。之所以说是“基于最大熵”的,是因为我们这个评价函数的主体是依据最大熵的思想,但其实际构成还有一族特征函数(值域空间为[-1,1])。
大体上评价函数的形式为:
其中 即是特征函数族。
在这个评价函数的公式中,若yi的值为1,则这个函数的值即为染色体向量的熵的值:这是一个基本的统计思想。而在实际过程中,yi为区间[-1,1][1]内的一个实数,其主要意义,则是xi相关的某一些(个)语言知识的定量描述,这些语言知识并不限制是句法的、语义的、语用的亦或是统计的,我们可以举一些例子:
(1) 听/v 不/d 到/v 回/q 音/n 的/u 距离/n 应/v 该/r 是/v 多少/r
诸如“回音”、“回声”、“激光”等,都可以看作新词(如果词表中没有出现的话)。比如这个例子中的“回音”,如何发现它是一个新词?在我们的分词系统中,除了度量基因片段“11”和“01”的熵以外,还可以采取一些其它知识设计为特征函数来进行度量,比如我们可能计算“回”与“音”的互信息来进行度量,也可能加入“音”与“声”同义,使用“回声”来例证的方式进行度量,目标就是把“回音”作为新词识别出来。
由这样的一个例子可以看出,我们的计算特点是把统计机器学习和语言知识结合起来综合考虑。这就是我们在技术规划中屡次提到的一种方式。
(2) 山/n 好/a 水/n 好/a 人/n 不如/v 王牌/n 人/n 好/a
“王牌”本身是一个名词(可能出现在词表中),但它又是一个组合型歧义,因为
“王/nr 牌/nr”本身也可能是一个人名。通用语感下,在这一句话中应该是做一个人名解[2]。
如何正确的识别?因为是已登陆词的原因,“王牌”的一般评价是远高于“王 牌”的;但作为两个基因片段“ 11 ” 和“ 01 ” ,我们的特征函数应该是对“专名碎片”如姓进行特别的关注。同时也要考虑一些固有的搭配团的特征函数,比如“不如小张人好、不如小李人好”等等一些习惯方式的利用。
需要说明的是,这些问题本身都是非常困难的。我们现在还在讨论算法的框架,以及对问题可能的应对策略。很多问题的解决,要依赖我们SegWord实际的设计,以及对测试数据的进一步分析和综合考虑上。
(3) 初二/t 数/m 学人/n 教/v 版/n 试题/n
这个例子是典型的交集型歧义的处理,其中“人教版”也可以作为新词简略语来看。其中对于“数学”和“学人”的处理比较关键,即基因片段“ 101 ” 和“01?”的处理。但就这一个例子而言,切分成“初二 数学 人 教 版 试题”应该是比较常规的输出;然后再对碎片“人 教 版”集中处理(团操作?)。我们希望SegWord可以相对容易的做到这些。
综上而言,MEEA是一个具有自适应性、不依赖初始词表、并能容纳统计机器学习和综合语言知识利用的算法框架。作为一个基本的算法,用作分词和标注可以满足SegWord目标(1)和(2)的基本要求。但对于目标(3),我们另有深入的考虑。
3、对自适应词库的目标的考虑
这一小节仅提个开头,因为对于SegWord,这是最后、也是最困难的一个目标。很多内容都是需要仔细考虑,并在目标(1)和(2)的基础上进行思辨的。
由上面的讨论可以看出,最大熵是我们的评价函数的基本思想;但特征函数族,则可以称为是语言知识计算的子模型。在前期,这些模型的建立,是由我们来人工设计完成的;也就是说,这些算法是由人来设计的,而不是由机器。
但作为演化计算本身,如果有模型的合适的度量体系,是可以由机器自动建立模型的。此即遗传程序设计(属于演化计算在自动程序设计上的分支)。
建立特征函数族模型的度量体系,由机器来设计特征函数族并进行分词与语言知识的发现,可能是我们追求目标(3)所需要探索的一步。
percylee
于北京
2007-1-30 草稿