自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

huyanqing的专栏

原创求海量文本中两两相似文本的快速算法

问题描述这个问题的输入是一个文本语料库，输出是语料库中相似度大于某个阈值的所有文本对，阈值可以是0.9或者0.8. 举个例子，比如我的输入是下面的语料库,我的阈值是0.6,我的相似度度量用的是文本中以字为单位的jaccard相似度1. 福禄很可爱2. 福禄真可爱3. 福禄是可爱4. 阿里巴巴牛逼5. 阿里巴巴很牛逼我的输出是:文档ID 文

2017-02-26 09:26:03 4891 4

原创 centos 6.8docker安装

刚买了个ecs服务器，并且装了个docker参考下面这个帖子，轻松搞定http://www.cnblogs.com/baolong/p/5743420.html

2017-02-23 22:08:31 471

原创 tensorflow安装的坑

最近想装tensorflow，网上一搜，全是16年的帖子，按照帖子中提供的安装链接，都不靠谱，总是报下面的错误：Collecting tensorflow==0.9.0 from https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0-cp27-none-linux_x86_64.whl Retrying

2017-02-16 11:06:41 8947

原创 opencv adaptiveThreshold的用法

最近搞OCR，要对图片做些预处理，

2014-08-26 11:25:58 1452

原创 opencv3.0 安装全攻略

由于要做点东西，需要用opencv3.0，搞了jiang

2014-08-20 17:38:35 3279

原创 opencv 安装的问题

我要安装的是opencv3.0，虽然不是稳定的正式版，但我做东西的时候，已发布的版本bang

2014-08-20 11:21:01 1971

时间序列的索引

自己写的读书笔记吧，时间序列的一些重要方法

2013-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

huyanqing CSDN认证博客专家 CSDN认证企业博客

码龄22年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

6: 原创

134万+: 周排名

180万+: 总排名

2万+: 访问

: 等级

271: 积分

4: 粉丝

5: 获赞

4: 评论

6: 收藏

私信

关注

热门文章

分类专栏

最新评论

求海量文本中两两相似文本的快速算法
Little Coder 回复 dajiahao1231: 可以用simhash + 余弦相似度
求海量文本中两两相似文本的快速算法
中泽回复 dajiahao1231: 我最近也在做文本去重，请问您现在问题解决了吗，用的什么方法
求海量文本中两两相似文本的快速算法
bblbsk 回复 dajiahao1231: 我最近也遇到，求文档相似的问题，不知道你现在用的什么方法
求海量文本中两两相似文本的快速算法
dajiahao1231: 最近在做文本查重最近在做文本查重的 1.尝试过simhash，速度快，准确度不行 2.用gensim 或者 sklearn TfidfTransformer求相似的话，对海量数据不太适应，速度不行有人正在做类似的么，一起做，加个好友，交流下博主的提到的ppjoin算法还没试，ppjoin的原理还是不太懂

最新文章

提示

确定要删除当前文章？

取消删除