分词
文章平均质量分 92
wangliang_f
爱搜索,爱科学,爱生活
展开
-
在csdn写技术博客吧,哈哈哈
在csdn写技术博客吧,哈哈哈转载 2013-12-10 13:08:19 · 542 阅读 · 0 评论 -
无监督分词中ngram片段的基础特征总结
无监督原创 2014-05-05 16:04:29 · 2900 阅读 · 1 评论 -
统计分词/无字典分词学习(4):候选片段的过滤方法,互信息过滤
从上一篇文章的分析中可以看到,top100万的片段中,只有不到3万是真正的词,因此,我们要把一些不是词的片段给过滤掉。一个片段要成为一个词,首先其内部的字母之间连接要足够紧密。一般可以用mi来衡量这个指标,如两个字母"h","e"要成为一个词,其出现的概率P("he")应该大于其完全独立的概率,即P("he")>P("h")P("e"),这时,我们才认为“he”是一个词。而对于“she”这样多原创 2013-12-26 14:28:37 · 1179 阅读 · 0 评论 -
统计分词/无字典分词学习(3):分词效果评价和基线
在上一篇文章中,我们已经有了100万个候选词和其对应的词频,利用这些数据,我们已经可以进行分词了,就是利用前面分词介绍中的最大概率分词。我们将标准词典分出来的词和利用这100万个词的候选词典,对同一个句子进行分词,然后比较两者的分词结果,就可以获得分词的准确率和覆盖率。其中准确率就是候选词典分出来的词,在标准分词中出现的比例,而覆盖率,则是标准分词中在候选词典分词的结果中出现的比例。如原创 2013-12-26 13:02:27 · 1360 阅读 · 0 评论 -
统计分词/无字典分词学习(7): 模型方法
前面几篇讨论的统计分词基本都是基于这样一个理念,首先,把所有的ngram片段都当成候选词,这些ngram的概率可以用极大似然估计获得;然后,选择一系列指标来过滤这些ngram片段,主要的指标包括词频、互信息、边界熵三个指标,对每个指标,又可以有不同的变形,此外还有形式熵等其他的一些类似指标。但这种做法,存在一个主要问题是,如何选取不同指标的阈值,来构造最终的词典,实践中,往往就是反复的做实验,原创 2014-01-03 14:44:11 · 1575 阅读 · 0 评论 -
统计分词/无字典分词学习(2):n-gram词频统计
我们现在面对的是“wheninthecourseofhumaneventsitbecomesnecessary”这样一堆语料,要获取词典,怎么办?第一步肯定是找到所有可能是词的片段了,常用的方法就是n-gram切分了,如假设词的最大长度是3,则句子“abcd”的n-gram切分就是:1-gram切分:a b c d2-gram切分:ab bc cd3-gram切分:abc bcd原创 2013-12-25 19:23:25 · 7279 阅读 · 0 评论 -
分词学习(1)--正向最大匹配分词
汉字分词最简单的就是正向最大匹配分词了,其基本原理很简单,而且经常作为笔试题。 该算法主要分两个步骤:1 一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。2 首先看该片段是否在词典中,如果是,则算为一个分出来的词,如果不是,则从右边开始,减少一个字符,然后看短一点的这个片段是否在词典中,依次循环,逐到只剩下一个字。3原创 2013-12-24 15:06:00 · 1418 阅读 · 0 评论 -
统计分词/无字典分词学习(1):介绍和语料准备
分词算法中,一般都需要一个词典,但这些词典往往很难覆盖所有的词,特别是在一些专业领域,甚至有超过40%的词都不在词典里面,这样首先就需要“学习”大量的新词,否则分词准确性很难提高,进一步的,有研究就干脆不要词典了,由算法自动从大量的语料中学得一个词典,这就是统计分词,或者成为无字典分词。一般就只预设一个小规模的词典,后者没有词典,首先从大量的未标注语料,也就是生语料中学习出一个词典,然后利用这个词原创 2013-12-24 19:22:45 · 1778 阅读 · 1 评论 -
分词学习(3),基于ngram语言模型的n元分词
最大概率分词中,认为每个词的概率都是独立的,但是有一部分词,其切分却与前一个词密切相关,特别是中文分词中更为明显,英文中就是如上一篇文章中的“tositdown”的例子。 这样就可以使用2元模型,就是如一个分割形式"ab cde f"的概率,如果按照1-gram计算:P(ab cde f) = P(ab)*P(cde)*P(f)如果按照2-gram计算:P(ab cde原创 2013-12-24 17:42:32 · 10510 阅读 · 0 评论 -
分词学习(2),最大概率分词
目前开源分词里面,最常用的还是最大概率分词,就是针对一个序列,获得一个概率最大的分词方式。如“abcde”,可能的分法有“abc de”,“a b cde”等等共2^(n-1)种,n为字符串的长度,如果取全部的切分形式,计算量会非常大。 我们一般会采用n-gram模型,就是假设一个词只与前n个词有关系,如n=1,就是假设所有的词都是独立的,因此一个分割形式的概率,就是各个分割词的概原创 2013-12-24 16:56:38 · 3055 阅读 · 0 评论 -
统计分词/无字典分词学习(5):候选片段的过滤方法,边界稳定性
互信息主要是过滤掉那些内部结合不紧密的片段,但只过滤掉了3%的无意义片段,而我们会发现,大量的不是词的片段是这样的形式:informa、informat、informati,informatio这样的,属于information这个高频词一部分的片段。这些片段因为是某个词的一部分,因此,有这样一个明显的特点,就是其后续的一个字母或者几个字母非常固定。如informa,后续的一个字母只有l和原创 2013-12-26 18:07:57 · 1113 阅读 · 0 评论 -
分词研究中的最小描述长度(Minimum description length)方法
a bab a ba MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度(原创 2014-05-09 11:08:54 · 8590 阅读 · 0 评论