hadoop
du_xian_sheng
这个作者很懒,什么都没留下…
展开
-
HDFS和MapReduce核心思想
Hadoop是Apache下的一个开源分布式计算平台,以HDFS(Hadoop Distributed Filesystem)和MapReduce为其核心。为什么会出现这么个东西呢,“需求是最强大的驱动力”,在这个"big data"的时代,比如Facebook每天处理的新数据良就达到20TB,要处理海量数据就不能局限于传统数据库时代的做法了,我们可以把处理数据的任务分散到各节点(普通硬件设备),转载 2017-11-28 18:52:48 · 727 阅读 · 2 评论 -
CentOS系统下的Hadoop集群(第3期)_VSFTP安装配置
Hadoop集群(第3期)_VSFTP安装配置 1、VSFTP简介 VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这与生俱来的安全特性以外,高速与高稳定性也是VSFTP的两个重要特点。 在速度方转载 2017-12-03 19:57:31 · 299 阅读 · 0 评论 -
CentOS系统下的Hadoop集群(第2期)_机器信息分布表
Hadoop集群(第2期)_机器信息分布表1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet,实验网页文转载 2017-12-03 19:57:54 · 241 阅读 · 0 评论 -
Linux下用Eclipse开发调试Hadoop程序后打jar包后,到Hadoop集群上运行
Linux系统(Ubuntu14.10)下Hadoop开发环境搭建 下载Eclipse,解压安装,下载hadoop-eclipse-plugin-2.5.1.jar插件,放至/eclipse/plugins/目录下。创建hadoop连接。这样就可以用eclipse编写Hadoop程序,调试正确后,就可以打成jar包,提交到Hadoop分布式集群中运行。注意,在Eclipse中运行程序,并没有提转载 2017-11-24 10:22:25 · 845 阅读 · 0 评论 -
Hbase中多版本(version)数据获取办法
前言:本文介绍2种获取列的多版本数据的方式:shell和spring data hadoop一、hbase shell中如何获取 1、在shell端创建一个Hbase表[java] view plain copy create 't1','f1' 2、查看表结构[java] view plain copy转载 2017-12-04 12:23:19 · 644 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境配置
我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)第一步:先启动hadoop守护进程具体参看:http://www.cnblogs.com/flyoung2转载 2017-11-24 10:30:35 · 267 阅读 · 0 评论 -
hadoop软件大全下载整理(更新中)
本篇文章将整理在开发过程中所用的各种软件,并会陆续的进行更新! Visual C++6.0 : http://pan.baidu.com/s/1c2c9VTu 绿色版:http://pan.baidu.com/s/1dFFWKaleclipse for windows: 32位:http://pan.baidu.com/s/1eSrySEm64位:http://pan.转载 2017-11-25 17:17:42 · 1676 阅读 · 0 评论 -
HDFS中的file与block块之间的对应关系举例
linux中的jdk-6u24-linux-i586.bin是81M[root@hadoop local]# du -sh *211M hadoop60M hadoop-1.1.2.tar.gz250M jdk81M jdk-6u24-linux-i586.bin8.0K mydata4.0K word2.txt4.0K word.t转载 2017-11-26 16:18:25 · 413 阅读 · 0 评论 -
MapReduce Input Split(输入分/切片)详解
看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。先看一下这个图输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。Hadoop转载 2017-11-26 18:06:39 · 557 阅读 · 0 评论 -
聊聊Hadoop:图解HDFS是个啥
Hadoop进入到2.0以后,最大的改动便是拆分出数据处理(MapReduce)和集群资源管理(YARN)部分。HDFS作为分布式储存系统在Hadoop 2.0中继续沿用。今天读了一些介绍Hadoop生态圈的文章,感觉都写得非常地学术。周末正好有兴致和时间,做了几张介绍HDFS基本信息的图,包括HDFS的用处、架构和读写文件的流程,让大家见笑啦。HDFS是干嘛的?H转载 2017-11-27 09:41:00 · 711 阅读 · 0 评论 -
Hadoop入门-WordCount示例
WordCount的过程如图,这里记录下入门的过程,虽然有很多地方理解的只是皮毛。Hadoop的安装安装比较简单,安装完成后进行单机环境的配置。hadoop-env.sh:指定JAVA_HOME。# The only required environment variable is JAVA_HOME. All others are# optional. When r转载 2017-11-27 09:42:47 · 494 阅读 · 0 评论 -
Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。关键词:HDFS文件 命令行 Java APIHDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计。Hadoop之HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linu转载 2017-11-27 09:57:47 · 436 阅读 · 0 评论 -
第一个MapReduce案例集群模式&本地模式
记录一下自己在开发MapReduce程序的过程。 思考点是:如何下手,怎样开发。1.对于平台的要求:环境已搭建完毕,且测试通过。 我自己平台是:Centos6.4 +jdk1.7+hadoop2.5.1 都是64位的我这里写的是非常简单的一种:创建一个java工程,导入jar包,写三个类。分别是:Mapper类、Reducer类、Runner类Mapper类、R转载 2017-11-27 19:35:14 · 505 阅读 · 0 评论 -
Hadoop本地运行模式深入理解
Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式,相应概念如下: 1、独立模式即本地运行模式(standalone或local mode) 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。 2、伪分布运行模式 伪分布:如果Hadoop对应的Java转载 2017-11-27 19:41:03 · 345 阅读 · 0 评论 -
CentOS系统下的Hadoop集群(第4期)_SecureCRT使用
Hadoop集群(第4期)_SecureCRT使用 1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTe转载 2017-12-03 19:56:52 · 303 阅读 · 0 评论 -
CentOS系统下的Hadoop集群(第5期副刊)_JDK和SSH无密码配置
Hadoop集群(第5期副刊)_JDK和SSH无密码配置 1、Linux配置java环境变量 1.1 原文出处 地址:http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文转载 2017-12-03 19:56:22 · 290 阅读 · 0 评论 -
CentOS系统下的Hadoop集群(第6期)_WordCount运行详解
Hadoop集群(第6期)_WordCount运行详解 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。转载 2017-12-03 19:55:26 · 417 阅读 · 0 评论 -
查看HADOOP中一个文件有多少块组成
hadoop fsck /user/part-001 -files -blocks-racks -racks 是显示机架位置原创 2017-11-28 19:26:09 · 788 阅读 · 0 评论 -
hmaster和hregionserver 16020 端口冲突问题
问题背景: 最近升级了下hadoop、 hbase、 spark,发现hbase升级后主节点上的hregionsever老是启动不了。 查看日志发现如下端口冲突错误:java.lang.RuntimeException: Failed construction of Regionserver: class org.apache.hadoop.hbase.regionserver.HRe转载 2017-11-29 19:57:05 · 867 阅读 · 0 评论 -
【Mapreduce】从代码上解决Output directory already exists错误,避免每次调试都要手动删除输出文件夹
Mapreduce调试很蛋疼的,它不会覆盖上一次输出的结果,如果发现输出文件夹已经存在,比如我的调试输出文件夹是hdfs://192.168.230.129:9000/output,它会直接给你报如下错误:[plain] view plain copy Exception in thread "main" org.apache.hadoop.mapred.FileA转载 2017-11-30 12:47:54 · 1504 阅读 · 0 评论 -
360*640是什么设备的分辨率?
作者:孙明然链接:https://www.zhihu.com/question/48243257/answer/196101102来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。360*640是什么设备?这个问题比较复杂,我们先解释320*480,320*568,375*667,414*736这几个分辨率。解释前,引入个概念:设备像素比转载 2017-12-09 15:54:32 · 4462 阅读 · 0 评论 -
Windows环境下Hadoop开发环境配置
Windows环境下Hadoop开发环境配置一、 事先准备 1) Hadoop集群环境搭建 已经用三台虚拟机(操作系统为ubuntu 10.0.4)搭建完成一个hadoop分布式集群,分别是hadoop1: 192.168.201.104,hadoop2: 192.168.201.54和hadoop3: 192.168.201.100 ,其中hadoop1为namenode,其余为da转载 2017-11-22 11:59:09 · 503 阅读 · 0 评论 -
hadoop学习之HDFS(2.5):windows下eclipse远程连接linux下的hadoop集群并测试wordcount例子
windows下eclipse远程连接linux下的hadoop集群不像在linux下直接配置eclipse一样方便,会出现各种各样的问题,处处是坑,连接hadoop和运行例子时都会出现问题,而网上的帖子讲的都很支离破碎,下面我们来一步一步解决,亲测有效。注意!注意!注意!windows下eclipse运行mr程序时是用的windows本地环境,毕竟跟linux有很大差异,所以不建议使用w转载 2017-11-22 12:00:50 · 454 阅读 · 0 评论 -
Hadoop学习全程记录(1)-hadoop入门
几天前开始学习hadoop,从今天起,想把我学习hadoop全过程记录一下。我会记录在学习过程中碰到的问题、困难以及解决方法等等,如果你也是刚学hadoop,我们可以一起讨论。学了几天,好像入门了,在这里和大家分享,就当全程笔记的第一篇吧。新说明一下我的开发环境操作系统:在windows下使用wubi安装了ubuntu 10.10hadoop版本:hadoop-0.20转载 2017-11-22 12:51:30 · 356 阅读 · 0 评论 -
win10+eclipse+hadoop2.7.2+maven直接通过Run as Java Application运行wordcount
标签:一、准备工作 (1)Hadoop2.7.2 在linux部署完毕,成功启动dfs和yarn,通过jps查看,进程都存在 (2)安装maven二、最终效果 在windows系统中,直接通过Run as Java Application运行wordcount,而不需要先打包成jar包,然后在linux终端运行三,操作步骤 1、启动dfs和yarn 终端:${HA转载 2017-11-22 12:59:58 · 615 阅读 · 0 评论 -
Hbase中多版本(version)数据获取办法
前言:本文介绍2种获取列的多版本数据的方式:shell和spring data hadoop一、hbase shell中如何获取 1、在shell端创建一个Hbase表[java] view plain copy create 't1','f1' 2、查看表结构[java] view plain copy转载 2017-12-02 17:03:39 · 3117 阅读 · 0 评论 -
mapreduce系列(3)----在window端远程提交mr程序运行
之前讲到windows上跑本地版的mapreduce程序,毫无问题, 但是更进一步,我现在想直接把我的idea上的程序运行在linunx集群上,这样,我的本地就相当于是mapreduce的一个客户端了。 沿着这个思路,我们直接把conf配置如下设置:conf.set("mapreduce.framework.name","yarn");conf.set("yarn.resourcem转载 2017-11-23 13:26:13 · 590 阅读 · 0 评论 -
Hadoop2.6.4搭建笔记
自己搭建一个Hadoop集群,小型的。我在台式机上新建了3台虚拟机,一台用于Master,两台用于Slave。系统用的Ubuntu14.04.系统准备好之后。一、在UBuntu下创建hadoop用户和用户组1. 首先新建hadoop用户组[cpp] view plain copy sudo addgroup hadoop 2. 创建hado转载 2017-11-23 17:32:25 · 335 阅读 · 0 评论 -
Eclipse下 Hadoop Maven 项目log4j配置
在src/mian/java目录下放一个log4j.properties文件,加上日志格式内容,例如:log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayou转载 2017-11-23 18:17:34 · 505 阅读 · 0 评论 -
hadoop mapreduce的本地模式及yarn模式
MapReduce按照任务大小和设置的不同,提供了两种任务模式:客户端通过org.apache.hadoop.mapreduce.protocol.ClientProtocol与服务端通信,ClientProtocol的继承关系:老一些的版本还有一个JobTracker的实现类,即:classic。用于和MapReduce1.X兼容用的,高一些的版本已经没有这个实现类了。转载 2017-11-27 19:55:05 · 1405 阅读 · 0 评论