hadoop
文章平均质量分 68
michaelnju
愿将热血卫吾华!
展开
-
Naive Bayes 朴素贝叶斯的JAVA代码实现
1.关于贝叶斯分类bayes 是一种统计学分类方法,它基于贝叶斯定理,它假定一个属性值对给定类的影响独立于其它属性点的值。该假定称作类条件独立。做次假定是为了简化所需计算,并在此意义下称为“朴素的”。bayes分类的算法大致如下:(1)对于属性值是离散的,并且目标label值也是离散的情况下。分别计算label不同取值的概率,以及样本在label情况下的概率值,然后将这些概率值相乘最后原创 2013-10-11 21:34:14 · 10770 阅读 · 2 评论 -
Pig 在 shell script中被调用,批量加载处理文件
Pig 在 Shell中使用,批量加载处理文件原创 2014-09-28 15:47:37 · 1755 阅读 · 0 评论 -
Pig安装及简单实例
前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序转载 2014-09-02 08:42:49 · 915 阅读 · 0 评论 -
Python实际应用-数据处理(二) 数据特定格式变化
Python实际应用-数据处理(二) 数据特定格式变化原创 2014-09-22 22:25:22 · 1175 阅读 · 0 评论 -
Pig 中的一些语法知识。
Registerregister用于将jar文件导入到pig脚本,这样就可以使用原创 2014-09-03 10:24:13 · 1388 阅读 · 0 评论 -
HBase的java编程实例-写入词频统计
HBase的java编程实例-写入词频统计原创 2014-05-27 23:01:16 · 2476 阅读 · 0 评论 -
hadoop集群远程作业测试
平时我们都是在本地的伪分布式环境原创 2014-05-27 16:07:25 · 1121 阅读 · 0 评论 -
Ubuntu安装单机1.2.1hadoop与伪分布式模式进行WordCount实验
一、hadoop单机和伪分布式配置步骤原创 2014-04-10 17:13:24 · 2032 阅读 · 0 评论 -
Ubuntu配置hadoop的eclipse开发环境
1.首先是配置eclipse到官网原创 2014-04-13 21:14:30 · 1575 阅读 · 0 评论 -
信息熵与信息增益的概念
关于熵的概念:熵是一个信息论中很抽象的概念,从熵定义的角度来看,熵表示一组信息中,所有随机变量出现的期望,他的计算公是:Entropy(S):H(x)=∑p(xi)log1/(p(xi)) (i=1,2,..n)=-∑p(xi)log(p(xi)) (i=1,2,..n)其中log的底数是2.公式的理解是:p(i)表示第i个变量出现的概率,则1/p(i)表示若p(i)发生的样本容量原创 2013-09-26 18:23:11 · 3707 阅读 · 0 评论 -
图解mapreduce原理和执行过程
本文旨在对接触了mapreduce之后,但是对mapreduce的工作流程仍不是很清楚的人员,当然包括博主自己,希望与大家一起学习。原创 2014-04-16 21:19:22 · 15492 阅读 · 3 评论