文本分类
文章平均质量分 79
tiryzheng
数据爱好者,文本挖掘疯子
展开
-
信息检索领域的准确率(accuracy),精确率(Precision),召回率(Recall)
准确率(accuracy),精确率(Precision),召回率(Recall)编辑准确率(accuracy),精确率(Precision)和召回率(Recall)[2] 是信息检索,人工智能,和搜索引擎的设计中很重要的几个概念和指标。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。概念介绍先假定一个具体场景作为例子。假如某个班级有男生80人转载 2015-09-10 11:54:12 · 4607 阅读 · 0 评论 -
gensim文档-相似性查询
原文链接http://cloga.info/python/2014/01/28/Gensim_Similarity_Queries/28 January 2014如果你想要查看logging事件不要忘记设置。import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(mes转载 2015-09-19 11:36:26 · 2716 阅读 · 0 评论 -
gensim的LSI模型来计算文档的相似度
[python] view plaincopyfrom gensim import corpora,models,similarities dictionary=corpora.Dictionary.load('/tmp/deerwester.dict') corpus=corpora.MmCorpus('/tmp/deerwester.mm')转载 2015-09-19 11:31:57 · 1443 阅读 · 0 评论 -
lsi计算文档相似度
原文链接http://datum.readthedocs.org/en/latest/201308/gensim.html#lsi先准备数据,我爬了约2w篇豆瓣日记作为这次试验的数据,数据和代码可以在这里https://github.com/largetalk/yaseg 找到。主要代码如下:import jiebafrom gensim import cor转载 2015-09-19 11:34:42 · 3872 阅读 · 0 评论 -
NeuralTalk2模型笔记
模型地址:https://github.com/karpathy/neuraltalk2遇到的坑:1.torch安装过程中,文件尺寸不符解决办法:分析缺失哪些包,手动下载2.cudnn版本不对本机环境 ubuntu17.10+cuda8cudnn 一开始下的是6.0版本,后来降级为5.1版本5.1下载地址链接:http://pan.baidu.com/s/1c984eq 密码:wai9安装http...原创 2018-03-27 09:55:47 · 1524 阅读 · 3 评论 -
[转载]word2vec在工业界的应用场景
这篇文章主要讲应用,不讲原理。通俗的说,word2vec是一种将『词』变成向量的工具,在nlp的场景中『词』是显而易见的,但是在有些时候,什么可以看做『词』和『文档』就不那么容易了。文章目录 [展开]在社交网络中的推荐前东家工作的时候,有一个个性化推荐的场景,给当前用户推荐他可能关注的『大V』。对一个新用户,此题基本无解,如果在已知用户关注了几个『大V』之后,相当于知道了当前用户的一些关注偏好,根...转载 2018-05-05 22:57:14 · 456 阅读 · 0 评论