算法_观澜而索源的博客-CSDN博客

算法

关注

关注数：文章数：9 文章阅读量：16298 文章收藏量：22

作者: 观澜而索源

现任上海创行科技技术总监。历任中国平安平台开发工程师，腾讯拍拍网B2C架构工程师。 web3.0语义搜索引擎探索者，海量数据处理，互联网高性能低成本平台架构搭建实践者，构建让更多普通开发者快速掌握高性能技术的框架，自由机器人研发爱好者

展开

海量数据相似度计算之simhash短文本查找

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很...

2013-09-09 07:34:30 · 256 阅读 · 0 评论
搭建高可用mongodb集群（三）—— 深入副本集内部机制

在上一篇文章《搭建高可用mongodb集群（二）—— 副本集》介绍了副本集的配置，这篇文章深入研究一下副本集的内部机制。还是带着副本集的问题来看吧！副本集故障转移，主节点是如何选举的？能否手动干涉下架某一台主节点。官方说副本集数量最好是奇数，为什么？mongodb副本集是如何同步的？如果同步不及时会出现什么情况？会不会出现不一致性？mongodb的故障转移会不会无故自动发生？...

2014-02-18 13:35:59 · 141 阅读 · 0 评论
海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文...

2013-08-26 07:33:14 · 276 阅读 · 0 评论
一致性hash和solr千万级数据分布式搜索引擎中的应用

互联网创业中大部分人都是草根创业，这个时候没有强劲的服务器，也没有钱去买很昂贵的海量数据库。在这样严峻的条件下，一批又一批的创业者从创业中获得成功，这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件，通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以，用...

2013-05-13 09:13:56 · 113 阅读 · 0 评论
数据挖掘-分词入门

谷歌4亿英镑收购人工智能公司DeepMind，百度目前正推进“百度大脑”项目，腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术，不过买来的数据挖掘书籍一打开全是大量的数学公式，而课本知识早已还给老师了，难以下手、非常头大！我们可以跳过数学公式，先看看我

原创 2014-09-16 09:01:32 · 2903 阅读 · 0 评论
海量数据相似度计算之simhash短文本查找

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是

原创 2013-09-09 07:33:56 · 5662 阅读 · 1 评论
海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本

原创 2013-08-25 17:19:36 · 5680 阅读 · 0 评论
一致性hash和solr千万级数据分布式搜索引擎中的应用

互联网创业中大部分人都是草根创业，这个时候没有强劲的服务器，也没有钱去买很昂贵的海量数据库。在这样严峻的条件下，一批又一批的创业者从创业中获得成功，这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件，通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以，用什么没关

原创 2013-05-14 10:47:53 · 1083 阅读 · 0 评论
数据挖掘-分词入门

谷歌4亿英镑收购人工智能公司DeepMind，百度目前正推进“百度大脑”项目，腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术，不过买来的数据挖掘书籍一打开全是大量的数学公式，而课本知识早已还给老师了，难以下手、非常头大！我们可以跳过数学公式，先看看我...

原创 2014-09-16 09:02:05 · 184 阅读 · 0 评论

算法

作者: 观澜而索源

海量数据相似度计算之simhash短文本查找

搭建高可用mongodb集群（三）—— 深入副本集内部机制

海量数据相似度计算之simhash和海明距离

一致性hash和solr千万级数据分布式搜索引擎中的应用

数据挖掘-分词入门

海量数据相似度计算之simhash短文本查找

海量数据相似度计算之simhash和海明距离

一致性hash和solr千万级数据分布式搜索引擎中的应用

数据挖掘-分词入门