NLP
wds2006sdo
这个作者很懒,什么都没留下…
展开
-
python 中文分词
最近要写一个计算两个句子相似度的程序,需要分词,因此上网找找有关Python分词的资料。看了别人的介绍,发现在python分词可选择中科院的分词和结巴分词,由于中科院分词要调用C++,所以我选择了结巴分词结巴分词速度还行,但没有停用词表。于是我将结巴分词包装了一下,加入百度停用词列表、哈工大停用词表扩展、四川大学机器智能实验室停用词库与中文停用词库这四个停用词库。结巴分词G原创 2016-03-31 20:04:31 · 5427 阅读 · 0 评论 -
基于gensim模块的中文句子相似度计算工具
概述中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型这3中模型更加适用于文章相似度的计算对于句子来说,长度太短,正确率相对不高算法及代码具体这几种模型的原理介绍可以参考别人的博客(如果我有时间就找找)gensim包提供了这几个模型,因此我们直接拿来用就好我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API原创 2016-04-05 00:27:08 · 14802 阅读 · 2 评论 -
深度学习、自然语言处理和表征方法
转载自:http://dataunion.org/9331.html翻译:XiaoxiaoLi简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成转载 2016-07-08 15:25:39 · 4086 阅读 · 0 评论 -
获取汉字偏旁部首 Python版本
功能介绍传入一个汉字,返回其偏旁部首字典分为本地字典与网络字典,本地词典来自精简版的新华字典,网络字典来自百度汉语。若当前汉字在本地字典中,则直接查询其偏旁部首并返回结果若本地字典中没找到,则到百度汉语中查找如果需要,可将网络字典中的结果加入本地字典中。代码下面两处都可以免费下载到源码 https://github.com/WenDesi/Chinese_radical http://do原创 2016-08-19 01:31:26 · 12871 阅读 · 0 评论 -
Python 繁体中文与简体中文相互转换
工作中需要将繁体中文转换成简体中文 上网找了些资料,发现这个包最方便安装方法不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可 https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py https://raw.githubusercontent.com/skydark/原创 2016-12-12 15:31:07 · 38398 阅读 · 3 评论