自然语言处理
云聪
喜欢简洁的抽象,也着迷神奇的细节,我担心自己因为过于偏向抽象而变得肤浅,也害怕自己因为太过深入细节而迷失,这让我很痛苦,但是我不会放弃挣扎,因为我相信挣扎的过程就是成长。
展开
-
一个后缀剥离算法(波特词干提取算法论文)
一个后缀剥离算法 M.F.Porter 1980 1.介绍 通过自动的方法去掉单词后缀是一个在信息检索领域尤其有用的操作。一个典型的信息检索系统包括一个文档集合,每个文档被它标题和摘要里的单词描述。如果忽略单词出现的位置,我们可以说,一个文档被一个单词向量表示。有相同词干的单词通常有相似的含义,例如: CONNECT CONNECTED翻译 2015-04-02 13:16:22 · 1881 阅读 · 0 评论 -
中文分词学习资料
中文分词算法 之 基于词典的正向最大匹配算法 中文分词算法 之 基于词典的逆向最大匹配算法 中文分词算法 之 基于词典的正向最小匹配算法 中文分词算法 之 基于词典的逆向最小匹配算法 一种利用ngram模型来消除歧义的中文分词方法 中文分词算法 之 基于词典的全切分算法Itenyh版-用HMM做中文分词一:序 Itenyh版-用HMM做中文分词二:模型准备原创 2016-04-11 23:48:54 · 1014 阅读 · 0 评论 -
Spark中使用HanLP分词
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: root=hdfs://localhost:9000/tmp/ 2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口: public static class HadoopFileIoAdapter implements原创 2017-06-08 18:09:53 · 4467 阅读 · 3 评论