![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 87
DilicelSten
Data has a better idea.
展开
-
Windows上pyltp的安装及使用
前言最近在做电影评论中人名识别的相关工作,对这一块思考了很久,因为评论中的人名称呼不一,“一人多名”是很普遍的,前期使用了hanlp的HMM模型、CRF模型匹配出的“nr”都是比较正常的人名,后期使用了nlpir模型但还是有些缺漏,对于赘词“小”“大”“老”“哥”等基本都匹配不出。后面使用了哈工大的LTP,发觉效果明显提升,由于是在Ubuntu上进行代码编写,在安装pyltp时频频报错,确实令人心灰原创 2017-11-01 20:06:01 · 9918 阅读 · 9 评论 -
Ubuntu上使用gensim计算文档间的相似度
暑期学习的过程中有幸接触了gensim中的lsi模型计算文档间的相似度,接下来将把我的所学整理一下~ 详细的可见gensim的英文官方文档:http://radimrehurek.com/gensim/tutorial.html关于gensimgensim是一个相当专业的主题模型Python工具包,常应用于文本处理中挖掘文本间的相似度,它能够将文档根据TF-IDF, LDA, LSI 等模型转化成原创 2017-07-30 16:15:51 · 755 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
最近在知乎上看到一篇很好的文章,对word embedding的发展过程有了个更加清晰的认识,也转载此处让更多人可以学习学习~ 原文 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的...转载 2018-12-21 11:16:34 · 605 阅读 · 0 评论