nlp
一米半
这个作者很懒,什么都没留下…
展开
-
中文分词 正向最大匹配法 逆向最大匹配法 双向最大匹配法
今天一个朋友找到我,她的一个亲戚写毕业论文涉及中文分词部分该如何设计算法,我把我的理解稍稍整理了一下,写出来供大家探讨: 分词算法设计中的几个基本原则: 1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然转载 2017-10-17 14:01:55 · 3217 阅读 · 0 评论 -
NLPN-Gram自然语言处理模糊匹配编辑距离
转载自:http://blog.csdn.net/baimafujinji/article/details/51281816 目录(?)[-] 基于N-Gram模型定义的字符串距离 N-Gram在模糊匹配中的应用利用N-Gram计算字符串间距离的Java实例 利用N-Gram模型评估语句是否合理使用N-Gram模型时的数据平滑算法A Final Word推荐阅读和参转载 2017-10-17 15:34:01 · 9316 阅读 · 0 评论 -
word2Vec 获取训练好后所有的词
import gensim sentences = [['first', 'sentence',], ['second', 'sentence'],['haha','sentence']] # train word2vec on the two sentences model = gensim.models.Word2Vec(sentences) 在gensim 1.0.0 以前的版本可以使用:...原创 2018-02-27 00:21:44 · 11821 阅读 · 0 评论 -
机器翻译自动评估-BLEU算法详解
链接:https://blog.csdn.net/qq_31584157/article/details/77709454转载 2018-08-01 14:36:41 · 828 阅读 · 0 评论