![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 68
Eadon999
机器学习、推荐算法
展开
-
pyhanlp添加自定义词典 强制优先自定义词典分词
自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。一、代码方式插入from pyhanlp import *text = "攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰" # 怎么可能噗哈哈!print(HanLP.segment(text))CustomDictionary = JClass("com.hankcs.hanlp...原创 2019-11-15 09:04:23 · 4125 阅读 · 1 评论 -
sklearn 生成中文词向量与tfidf
一、英文的词向量生成想必大家都已经能从官网学到,利用sklean的CoutVectorizer模块即可简单生成,借用官网例子:from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformervecizer = CountVectorizer()corpus = [ 'This is the first d...原创 2018-06-12 21:24:54 · 7556 阅读 · 1 评论 -
Word2vec的相关论文和博客收集
一、Word2Vec 作者Tomas Mikolov 的三篇代表作Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再...转载 2019-01-19 13:35:15 · 465 阅读 · 0 评论 -
facebook更新FastText工程--新增模型压缩论文的实现模型大小缩减80%--文本分类词向量fasttext
Facebook 于北京时间2019年6月25日更新FastText代码,增加了FastText.ZIP:Compressing Text Classification Models论文的模型压缩实现,论文地址https://arxiv.org/abs/1612.03651压缩后的模型能减小到10M以内一、新版函数的变化1.classification text的supervisor(...原创 2019-06-26 15:47:03 · 1419 阅读 · 0 评论