文本分词
文章平均质量分 81
mychaint
这个作者很懒,什么都没留下…
展开
-
【中文分词】亲手开发一款中文分词器--前言
所谓分词,就是将一个完整的句子按正确的意思将每一个词语提取出来的操作。分词是自然语言处理的第一个关卡,是让计算机处理人类语言的基础。但是计算机是无法识别人类语言中词汇这一概念的,更何况如何去识别理解词语了。所以如何通过有效的手段来进行分词是一个重要节点性问题。原创 2015-07-08 15:47:35 · 971 阅读 · 0 评论 -
【中文分词】亲手开发一款中文分词器——源代码
这里提供我开发的中文分词器源代码。代码分为三个部分:(一)状态矩阵元素对象GNode。 动态规划中,状态矩阵的元素需要记录当前最大概率和前一个最优匹配状态,这个矩阵是一个二维数组,每一个元素就是一个GNode对象。(二)统计学习使用的嵌套哈希表THash。 用于统计学习时记录结果的HashMap,这个哈希表有三层嵌套,对于收入数据有一些必要操作,为了简单起见,我将这个哈希表进行了封装原创 2015-07-09 10:01:23 · 2452 阅读 · 0 评论 -
【中文分词】亲手开发一款中文分词器——原理
前文已经谈到几种分词方法的手段和困难,本文将从最基本原理开始,一步一步分析我自己的分词器是如何开发的。从最初出发点开始,我们需要确定那些字的组合是词语。每两个字能否组合成词语,其实取决于两个字同时以相同顺序出现在文章中的次数有关,次数越高,代表他们越有可能组合成词。假设一个字A出现在一篇文章中的概率为P(A),另一个字B出现在文中的概率为P(B),那么AB同时出现在文章中的概率为P(A原创 2015-07-10 13:38:46 · 3032 阅读 · 2 评论 -
【英文分词】Stemming Segmentation,基于词干分词
英文分词主要是将各种时态形式的单词映射会同一种形式便于计算机理解。本文将列举一种基于词干分词的算法,这种算法建立在对英文构词法的充分了解上,所以代码中对各种形式的词汇的构词进行了拆解。英文分词的目标是将不同形式映射到同一形式,而不是原始形式。原创 2015-07-08 16:48:25 · 1577 阅读 · 0 评论