GarfieldEr007的专栏

勤奋治学 深度思考 静心钻研 先苦后甜

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分...

2017-02-18 22:52:03

阅读数:431

评论数:0

MapReduce论文中文版

摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中...

2016-08-28 20:29:07

阅读数:2726

评论数:0

用Hadoop1.0.3实现KMeans算法

从理论上来讲用MapReduce技术实现KMeans算法是很Natural的想法:在Mapper中逐个计算样本点离哪个中心最近,然后Emit(样本点所属的簇编号,样本点);在Reducer中属于同一个质心的样本点在一个链表中,方便我们计算新的中心,然后Emit(质心编号,质心)。但是技术上的事并没...

2016-06-08 14:10:54

阅读数:628

评论数:0

hadoop下实现kmeans算法——一个mapreduce的实现方法

写mapreduce程序实现kmeans算法,我们的思路可能是这样的 1. 用一个全局变量存放上一次迭代后的质心 2. map里,计算每个质心与样本之间的距离,得到与样本距离最短的质心,以这个质心作为key,样本作为value,输出 3. reduce里,输入的key是质心,va...

2016-06-08 14:10:02

阅读数:4373

评论数:2

hadoop下的Kmeans算法实现

前一段时间,从配置Hadoop到运行kmeans的mapreduce程序,着实让我纠结了几天,昨天终于把前面遇到的配置问题和程序运行问题搞定。Kmeans算法看起来很简单,但对于第一次接触mapreduce程序来说,还是有些挑战,还好基本都搞明白了。Kmeans算法是从网上下的在此分析一下过程。 ...

2016-06-08 14:09:06

阅读数:690

评论数:0

KMeans聚类算法Hadoop实现

Assistance.Java  辅助类,功能详见注释 [java] view plain copy   package KMeans;      import org.apache.hadoop.conf.Configuration;   ...

2016-06-08 14:06:04

阅读数:934

评论数:0

使用Hadoop Streaming Image进行图像分类 classification with Hadoop Streaming

Note: this article was originally posted on a previous version of the 500px engineering blog. A lot has changed since it was originally posted on Feb...

2016-05-30 20:33:08

阅读数:772

评论数:0

技术分享丨关于 Hadoop 的那些事儿

介绍Hadoop的文章已经很多了,个人感觉这一篇还是写得不错的: Hadoop以前是,现在仍然是大数据批处理领域的王者。Hadoop逐渐完善的生态体系,也让Hadoop广泛应用于各行业。 本文首先介绍Hadoop的架构和原理,侧重于Map-Reduce计算部分。再以简单示例带大家入门。 ...

2016-05-25 17:47:57

阅读数:917

评论数:0

Hadoop MapReduce多表关联程序

package com.hadoop.sample; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; ...

2016-04-24 19:05:00

阅读数:1043

评论数:0

Hadoop MapReduce单表关联程序

package com.hadoop.sample; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.h...

2016-04-24 19:03:51

阅读数:534

评论数:0

Hadoop MapReduce数据去重程序

package com.hadoop.sample; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.con...

2016-04-24 19:02:04

阅读数:833

评论数:0

Hadoop MapReduce排序程序

package com.hadoop.sample; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.con...

2016-04-24 19:00:02

阅读数:678

评论数:0

Hadoop安全实践

前言 在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证。本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法。 背景 集群安全措施相对薄弱 ...

2016-04-15 12:32:28

阅读数:2252

评论数:0

PigPen:用Clojure写MapReduce Introducing PigPen: Map-Reduce for Clojure

It is our pleasure to release PigPen to the world today. PigPen is map-reduce for Clojure. It compiles toApache Pig, but you don’t need to know muc...

2016-04-04 13:05:51

阅读数:752

评论数:0

基于Map-Reduce的相似度计算

基于Map-Reduce的相似度计算 转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9288589 不久前(6.29),参加了ChinaHadoop的夏季沙龙,听了人人的大牛讲了基于Map-Reduce的相似度计...

2016-03-31 17:46:19

阅读数:1304

评论数:0

Hadoop MapReduce的模式、算法和用例

本文英文原文发表于知名技术博客《Highly Scalable Blog》,由@juliashine 进行翻译投稿。感谢译者的共享精神! 译者介绍:Juliashine是多年抓娃工程师,现工作方向是海量数据处理与分析,关注Hadoop与NoSQL生态体系。 英文原文:《MapReduce ...

2016-03-28 11:26:25

阅读数:1343

评论数:0

Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files

今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正): 1.Hadoop’s SequenceFile SequenceFile 是...

2016-03-28 11:25:07

阅读数:573

评论数:0

Hadoop的调度器总结

随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,...

2016-03-28 11:24:44

阅读数:564

评论数:0

传统MapReduce框架

传统的MapReduce框架是google于2004年在论文:“MapReduce: Simplified Data Processing on Large Clusters”提出的,该框架把一些数据密集型应用的数据处理过程简化抽象成map和reduce两个阶段,用户在设计分布式程序时,只要实现m...

2016-03-28 11:24:27

阅读数:503

评论数:0

如何在Hadoop上编写MapReduce程序

1. 概述 1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,标志着关系...

2016-03-27 13:55:20

阅读数:605

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭