关闭

hive演示

//日志处理演示 //http://download.labs.sogou.com/dl/q.html 完整版(2GB):gz格式 //访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL //SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取CREAT...
阅读(64) 评论(0)

Hadoop Demo(二)【获取天气相关的统计信息】

介绍根据天气年历,通过自定义排序/自定义分区/自定义分组,实现获取天气相关的统计信息。目标1. 获取2010年至2012年,每年温度最高的时刻 2. 获取2010年至2012年,每年温度最高的前十天 思路1. 按照年份升序排序,同时每一年温度降序排序 2. 按照年份分组,每年对应一个reduce任务 DataPartition.javapackage com.hadoop.demo2.weather...
阅读(55) 评论(0)

Hadoop Demo(一)【统计文件中单词出现的频率】

TokenizerMapper.javapackage com.hadoop.demo1.word;import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException; import...
阅读(27) 评论(0)

NET实现Hadoop增删改查

packages.config <package id="Microsoft.Data.Edm" versi...
阅读(592) 评论(0)

Hadoop 文件查看工具

packages.config <package id="Microsoft.Data.Edm" version="5.2...
阅读(627) 评论(0)

hadoop2.x常用端口及定义方法

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper: 组件 节点 默认端口 配置 用途说明 HDFS DataNode...
阅读(108) 评论(0)

Hadoop for .NET Developers(十四):了解MapReduce和Hadoop流

在Hadoop中,通过MapReduce作业解决数据处理。作业由基本配置信息组成,例如输入文件和输出文件夹的路径,由Hadoop的MapReduce层执行一系列任务。这些任务负责首先执行map和reduce功能,以便将输入数据转换为输出结果。为了说明MapReduce如何工作,请考虑一个简单的输入文件,其中包含制表符分隔的记录(在下图的最左侧)。为了说明的目的,每一行将被标记为A到F。MapRedu...
阅读(251) 评论(0)

Hadoop for .NET Developers(十三):实施更复杂的MapReduce作业

在我们的第一个MapReduce练习中,我们使用针对本地开发集群的.NET SDK实现了一个有目的的简单MapReduce作业。 在本练习中,我们将使用相同的SDK实现稍微更复杂的MapReduce作业,但不使用我们的基于Azure的远程群集。对于本练习,我们将使用ufo_awesome.tsv数据文件中显示的UFO Sightings数据库。 该文件由制表符分隔的数据行组成,包含以下字段:Date...
阅读(329) 评论(0)

Hadoop for .NET Developers(十二):实现简单的MapReduce作业

在本练习中,我们将使用C#和.NET SDK编写并执行非常简单的MapReduce作业。本练习的目的是说明MapReduce背后的最基本概念。 我们将创建的作业将在以前的博客文章中加载到本地桌面开发环境的integers.txt示例文件中运行。您可能会记得该文件由1到10,000之间的整数值列表组成,每个整数占据自己的行。 我们将写的map函数将接受一行(一个整数),确定该值是偶数还是奇数,并...
阅读(311) 评论(0)

从零自学Hadoop(13):Hadoop命令下

序  上一篇,我们对Hadoop命令中的HDFS Commands进行了简略的列举,下面我们就MapReduce Commands和Yarn Commands进行简略的列举,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅。  下面,我们就开始对Hadoop命令下进行讲解。 MapReduce Commands一:介绍  所有的MapReduce命令通过bin/ mapred脚本调用。不指定参数...
阅读(119) 评论(0)

从零自学Hadoop(12):Hadoop命令中

序  上一篇,我们对Hadoop命令进行了简略的列举,但是Hadoop命令特多,还有一部分没有列举完,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅。  下面,我们就开始对Hadoop命令中进行讲解。 HDFS Commands一:介绍  所有的HDFS命令通过bin/ HDFS脚本调用。指定参数运行HDFS脚本会打印所有命令的描述。  用法: hdfs [SHELL_OPTIONS] COM...
阅读(122) 评论(0)

从零自学Hadoop(11):Hadoop命令上

序上一篇,我们从发展历程,架构,MapReduce等方面对比了Hadoop1.x与Hadoop2.x,特别是这这几年,2.x的发展已经可以适合很多的应用场景了。前面我们通过Eclipse插件来进行文件的上传,删除等,下面我们熟悉下Hadoop命令,从而更能直接,强力的对Hadoop进行操作。下面,我们就开始对Hadoop命令进行粗略的解析。本文有些地方是自己翻译的,翻译的不好望见谅。本章节内容较多,...
阅读(142) 评论(0)

Hadoop for .NET Developers(八):以编程方式将数据加载到HDFS

在本系列的最后一篇博文中,我们讨论了如何手动将数据加载到集群。虽然这对偶尔的需求是适用的,但是编程访问是更为方便,更为典型的方案。为了实现这一点,Hadoop在HTTP端口50070上提供了一个REST接口。当您可以直接对该接口编程数据加载时,.NET SDK可以使用WebHDFS客户端来简化此过程。要使用WebHDFS客户端,您必须了解在加载数据的集群中使用哪个存储系统。默认情况下,WebHDFS...
阅读(184) 评论(0)

Hadoop for .NET Developers(七):手动加载数据到Hadoop

要手动将文件加载到Hadoop中,应首先将文件加载到名称节点(name node)服务器。 使用名称服务器上的文件,可以在Hadoop命令提示符下使用两个命令之一将文件加载到Hadoop文件系统(HDFS)中。 虽然这对于大多数数据加载需求并不理想,但是当数据文件足够小以适合名称节点时,这种技术对于开发练习和其他一次性情况是很好的。为了演示手动加载文件,我们将从桌面开发环境的名称节点(name no...
阅读(274) 评论(0)

Hadoop2.7.4在Windows 7(64位)详细配置(完美版)

hadoop环境搭建相对麻烦,需要安装虚拟机过着cygwin什么的,所以通过查资料和摸索,在window上搭建了一个,不需要虚拟机和cygwin依赖,相对简便很多。官网下载JDK 1.8版本配置好java环境 官网下载hadoop-2.7.4.tar.gz解压至无空格目录下即可,下面是目录结构: 文件夹访问权限修改(Everyone) 下载Hadoop 2.7.4 Windows 64位 编译...
阅读(529) 评论(1)

LSM-Tree (BigTable 的理论模型)

Google的BigTable架构在分布式结构化存储方面大名鼎鼎,其中的MergeDump模型在读写之间找到了一个较好的平衡点,很好的解决了web scale数据的读写问题。 MergeDump的理论基础是LSM-Tree (Log-Structured Merge-Tree), 原文见:LSM Tree 下面先说一下LSM-Tree的基本思想,再记录下读文章的几点感受。 LSM思想非常...
阅读(470) 评论(0)

Hadoop for .NET Developers

Hadoop 介绍 英文翻译...
阅读(1185) 评论(1)
    个人资料
    • 访问:893838次
    • 积分:13005
    • 等级:
    • 排名:第1092名
    • 原创:307篇
    • 转载:439篇
    • 译文:56篇
    • 评论:93条
    博客专栏
    文章分类
    打赏
    如果你觉得我的文章对您有用,请随意打赏。 微信 支付宝