英文分词和中文分词

最新推荐文章于 2024-02-04 10:13:23 发布

diaokaijing6889

最新推荐文章于 2024-02-04 10:13:23 发布

阅读量1.1k

点赞数 1

原文链接：http://www.cnblogs.com/yako/p/6805717.html

版权

英文分词

由于英语的基本组成单位就是词，所以相对来说简单很多。

大致分为三步(3S)：

根据空格拆分单词（Split）
排除停止词（Stop Word） 提取词干（Stemming）

1、根据空格拆分单词

这一步是是最简单的一步，英语的句子基本上就是由标点符号、空格和词构成，那么只要根据空格和标点符号将词语分割成数组即可。

如“Nobody knows how ancient people started using fire”分割成{"Nobody","knows","how","ancient","people","started","using","fire"}。

2、排除停止词

停止词，是由英文单词:stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话，那么几乎每个网站都会被索引，也就是说工作量巨大。可以毫不夸张的说句，只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢？在中文网站里面其实也存在大量的stopword，我们称它为停止词。比如，我们前面这句话，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语，那么相当于浪费了很多资源。

常见停止词请看附录：http://www.cybermkd.com/stop-word-list/

如{"Nobody","knows","how","ancient","people","started","using","fire"}去掉停止词后得到 {"Nobody","ancient","people","started","fire"}

3、提取词干

提取词干是西方语言特有的处理，比如说英文单词有单数复数的变形，-ing和-ed的变形，但是在计算相关性的时候，应该当做同一个单词。比如 apple和apples，doing和done是同一个词，提取词干的目的就是还原成最基本的词。

同时我们可以将所有的大小写统一。

{"Nobody","ancient","people","started","fire"}处理成{"nobody","ancient","people","start","fire"}

经过上面三个步骤基本上一个英文句子就处理完了。

中文分词

对于中文而言，词是承载语义的最小单元，由词构成语句，又由语句构成篇章。但是，中文文本是由连续的字序列构成，词与词之间是没有天然的分隔符，所以中文分词相对来说困难很多。中文分词目前来说基本上都还是基于分词用的词典来进行分词的，将字和字组成不同的词然后放入词典中查找。

中文分词面临着相当多的挑战，首当其冲的就是歧义问题，不同的分割方式会导致不同的意思。

如：结婚/的/和尚/未/结婚/的和结婚/的/和/尚未/结婚/的

还有个重要的挑战就是未登录词，用人话就是没有收录进词典的词，人名就是最简单的例子，还有就是网友发明的词，诸如：“草泥马”、“不明觉厉”之类云云。