走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

Simhash相似哈希算法

前言最近在阅读吴军博士的>这门书,得到了很多的启发和思考,里面提到了一个概念---信息指纹。一般正常人提到这个概念,第一个想到的词应该是哈希映射算法,将任何对象都映射成一个独立的变量,一般这个变量是一个独有的数字,当然也不排除哈希碰撞的可能行。论单个对象,用哈希算法做一次映射,比较对象是否一...

2015-07-29 22:26:06

阅读数:5225

评论数:4

余弦定理实现新闻自动分类算法

前言余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧。但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们就可以做许多有意思的事情了,利用余弦定理计算文本相似度的算法就是其中一个很典型的例子。当然这个话题太...

2015-07-27 21:53:33

阅读数:5005

评论数:0

一致性哈希算法

前言很多人估计都听过哈希,顾名思义,一般程序的直接反映就是做映射的嘛,哈希算法,当然这不是今天本文所讲的重点,今天主要所讲的是另外一个名词,一致性哈希算法,光从字面上的意思想,这一定是对于原有算法的一个改进了。Hash我们先从最简单的hash方法开始说起,哈希方法可以有很多种类型,字符串哈希,数值...

2015-07-20 21:00:47

阅读数:2016

评论数:1

大规模集群自动化部署工具--Chef的安装部署

Chef脚本管理工具部署部署节点 节点类型 IP(虚拟假设的IP) Server 192.168.10.191 Workstation 192.168.10.36 Node 192.168.10.35 安装的版本 Chef-Server:chef-server-11....

2015-07-18 21:19:45

阅读数:4999

评论数:0

Storm自定义调度器实现--DirectScheduler

前言最近在研究Storm的任务调度相关的知识,于是就想要试着去改造一下Storm的任务调度,来满足一下现实状况中的一些场景。Storm调度的相关术语在看Storm的Scheduler代码么之前,得要弄明白几个概念,这样可以帮助大家更好的理解后面的调度过程。 1、slot。这代表一个Supervi...

2015-07-10 20:52:25

阅读数:3252

评论数:0

再学贝叶斯网络--TAN树型朴素贝叶斯算法

前言在前面的时间里已经学习过了NB朴素贝叶斯算法, 又刚刚初步的学习了贝叶斯网络的一些基本概念和常用的计算方法。于是就有了上篇初识贝叶斯网络的文章,由于本人最近一直在研究学习>,也接触到了许多与贝叶斯网络相关的知识,可以说朴素贝叶斯算法这些只是我们所了解贝叶斯知识的很小的一部分。今天我要总结...

2015-07-05 15:18:09

阅读数:5093

评论数:0

提示
确定要删除当前文章?
取消 删除