中文分词
文章平均质量分 77
kenbinzhang
http://zhangbin2006.qzone.qq.com
展开
-
简与美(2)
脑中的数学是抽象的,手中的数学是简单的。 接着谈中文分词。 我们已经讨论了词典的一种快速查询结构:双数组trie树。这种结构只需要通过简单的几次数学计算就可以完成查询,不需要做任何的拷贝和字符串比较。这种结构比较适合于词典不用经常变化的情况,因为这种结构的更新是非常麻烦的,他需要对全局结构进行调整,并且随着词典词数量的增加,调整的时间会越来越长。但是一般的词典都不需要经常更新。原创 2009-10-11 10:31:00 · 979 阅读 · 0 评论 -
简与美(3)
脑中的数学是抽象的,手中的数学是简单的。 接着谈字串粗分的N-最短路径方法。 所谓N-最短路径就是最少路径和全路径的折中,保留前N长度的路径。N-最短路径方法的基本思想是根据词典,找出字串中所有可能的词构造词图(一种有向无环图),每个词对应图中的一条有向边,并赋给相应的边长(权值)。针对这个词图,N-最短路径求解就是在起点到终点的所有路径中,求出长度值按严格升序排列依次为第1、第2原创 2009-10-11 10:32:00 · 858 阅读 · 1 评论 -
简与美(6)
在继续之前,先说些别的。有人问我最近在忙些什么,为什么会研究起NLP(自然语言处理)。这和工作有一定关系,但也不全是。总结一下我这三年来做的事情,围绕着三个技术核心,一个是如何写好代码,一个是存储技术,一个是数据挖掘。在写代码方面,主要是实战和理论学习相结合,在实战中不断改进,去粗存精,进一步从思想上改变认识,以期取得更深的体会。存储方面的研究,始于今年年初,通过这一年来几次重要的原创 2009-10-11 10:44:00 · 1205 阅读 · 0 评论 -
简与美(7)
脑中的数学是抽象的,手中的数学是简单的。 我们已经介绍了隐马模型,并且用动态规划思想解决了隐马模型提出的两个问题。尤其是第二个问题,和我们接下来要讨论的词性标注有直接关系。 在NPL领域,有一个称为N元模型的语言统计模型,它对应N-1阶马尔科夫模型。 N元模型可用于计算语句W=w1,w2,..,wn的先验概率P(W),在这里用变量W代表一个文本中顺序排列的n个词语。根据概率原创 2009-10-11 10:52:00 · 1624 阅读 · 1 评论 -
简与美(5)
当我搞明白了要把隐马模型说清楚至少再需要3篇的时候,我觉得这是一个陷阱了。不过既然已经决定去做,也有着美好的愿望,就勇往直前吧。有同学反映写的太难理解了,涉及太多的算法。我已经是很努力的写清晰了,那些算法的内里是很美妙的感觉,希望有兴趣的同学能够仔细品味,也可以找一些paper加深理解,实在看不懂,那我只能抱歉了。 脑中的数学是抽象的,手中的数学是简单的。 关于隐马模型,我大概原创 2009-10-11 10:43:00 · 860 阅读 · 1 评论 -
简与美(1)
最近在做项目的时候经常使用数学,把很多复杂的问题化简成很简单的模型,而这使得实现相当美观,为了激励自己继续钻研下去,也希望总结一些得失,我打算从今天开始陆续写一个《简与美》系列。 脑中的数学是抽象的,手中的数学是简单的。 上周做一个分词器。一个普通的分词器,对中文和英文进行自动切分,并标注词性。主要的技术就两点,词典的构造和切词模型的训练。 词典的构造要基于分词器对词典的要原创 2009-10-11 10:28:00 · 1730 阅读 · 2 评论 -
简与美(4)
脑中的数学是抽象的,手中的数学是简单的。 前面已经讨论了中文分词三个阶段的第一个阶段:字串粗分。经过字串粗分得到一个候选集合,我们也讨论了通过N-最短路径构造一个词图来减少这个候选集合的结果数目。理想情况下,如果这些候选结果包含了正确的分词结果,那么后续的处理就可能把正确的结果找出来,但如果经过粗分,把正确结果已经剥离了,那么后续处理就很难甚至不可能把正确结果找回来了。 实验结果证原创 2009-10-11 10:43:00 · 712 阅读 · 0 评论