走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

初识贝叶斯网络

前言 一看到贝叶斯网络,马上让人联想到的是5个字,朴素贝叶斯,在所难免,NaiveByes的知名度确实会被贝叶斯网络算法更高一点。其实不管是朴素贝叶斯算法,还是今天我打算讲述的贝叶斯网络算法也罢,归根结底来说都是贝叶斯系列分类算法,他的核心思想就是基于概率学的知识进行分类判断,至于分类得到底准不准...

2015-06-29 16:38:45

阅读数:5454

评论数:1

排序算法,堆算法实现TopK

TopK问题 TopK问题是一个经典的算法问题,TopK可以拆分为2个词Top, K意思就是选出其中最Top的K个变量,Top的意思可以是值最大,也可以是其他的一些衡量条件。也许你会想,这不是很简单吗,比如选一组数字中最大的一组数字,做个冒泡排序,输出前K个就OK了啊,当然没有说错,但是前提条件错...

2015-06-23 20:49:17

阅读数:3672

评论数:0

Hadoop Balancer源码解读

前言 最近在做一些Hadoop运维的相关工作,发现了一个有趣的问题,我们公司的Hadoop集群磁盘占比数值参差不齐,高的接近80%,低的接近40%,并没有充分利用好上面的资源,但是balance的操作跑的也是正常的啊,所以打算看一下Hadoop的balance的源代码,更深层次的去了解Hadoo...

2015-06-10 19:58:43

阅读数:5000

评论数:8

Zookeeper学习

前言 一般人对于zookeeper的绝大多数印象就是他是用来做协调服务的,不管说是Hadoop,HBase,Storm等等这些计算平台,都或多或少用到了这个zookeeper"动物管理员"。使用的方法都很简单,首先搭建一个zookeeper集群,然后在配置文件中指定一下ip:...

2015-06-07 21:42:23

阅读数:2757

评论数:0

提示
确定要删除当前文章?
取消 删除