Hadoop
mituan1234567
今天比昨天更好明天比今天更好为此不屈不挠地工作勤勤恳恳地经营孜孜不倦地修炼我们人生的目的和价值就是这样确确实实地存在着
展开
-
zookeeper原理(转)
http://cailin.iteye.com/blog/2014486ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此转载 2015-03-14 20:01:34 · 367 阅读 · 0 评论 -
海量Web日志分析 用Hadoop提取KPI统计指标
转载自:http://blog.fens.me/hadoop-mapreduce-log-kpi/前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进转载 2015-08-07 19:47:40 · 547 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境配置
http://www.cnblogs.com/flyoung2008/archive/2011/12/09/2281400.html我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.转载 2015-07-14 18:32:27 · 426 阅读 · 0 评论 -
淘宝之HBase MapReduce实例分析
http://www.aboutyun.com/thread-7072-1-1.html引言跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解。HBase MapReduce核心类介绍首先一起转载 2015-08-07 20:12:20 · 608 阅读 · 0 评论 -
Hadoop Archive解决海量小文件存储
http://www.linuxidc.com/Linux/2012-05/60785p2.htm单台服务器作为Namenode,当文件数量规模不断增大时,元数据的规模增长将是一个需要面对的问题,由于Namenode需要将所有元数据Load到内存中,单台Namenode可能会无法管理海量的元数据。另一个是HDFS中SequenceFile存储方式的讨论,利用Block压缩方式可以很好的转载 2015-07-29 13:10:19 · 1740 阅读 · 0 评论 -
深入理解Hadoop集群和网络
http://www.csdn.net/article/2012-08-30/2809380-understanding-hadoop-clusters-network导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的转载 2015-07-29 15:30:42 · 318 阅读 · 0 评论 -
hadoop自带的存取小文件存取解决方案
http://blog.csdn.net/luyee2010/article/details/8461991现实场景;在系统中,存在大量的小文件存取,比如图片文件,一般在几M以内, 1),但是HDFS默认block大小是64M,如果直接存取在Hadoop中,将极大的消耗namenode的资源。直接放在hadoop文件系统中,大多只是做归档分析用,所以,我们就想能不能定期转载 2015-07-29 13:37:06 · 388 阅读 · 0 评论 -
Hadoop中HDFS写入文件的原理剖析
http://www.linuxidc.com/Linux/2015-02/113638.htm要为即将到来的大数据时代最准备不是,下面的大白话简单记录了Hadoop中HDFS在存储文件时都做了哪些个事情,位将来集群问题的排查提供一些参考依据。步入正题创建一个新文件的过程:第一步:客户端通过DistributedFilesystem 对象中的creat()方法来转载 2015-07-30 18:54:41 · 461 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
http://www.linuxidc.com/Linux/2014-03/98978.htm初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系转载 2015-07-30 19:03:26 · 462 阅读 · 0 评论 -
[初学hadoop]错误信息:Wrong FS: hdfs://localhost:9000/user/... expected:&nb
转自http://www.blogjava.net/frankjinhao888/archive/2013/07/17/401676.html 问题描述:在本地运行hadoop Map/Reduce程序时,在涉及到hdfs文件操作的时候,往往会出现上面提到的错误,例如,下面这段代码:1 Path clear_path = new Path(args[1]);转载 2015-08-06 19:25:45 · 1772 阅读 · 0 评论 -
使用java api操作Hadoop文件
1. 概述 2. 文件操作2.1 上传本地文件到hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4 读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件 4. 参考资料接代码下载 . 概述 hadoop中关于文件操作类基本转载 2015-08-06 19:32:25 · 320 阅读 · 0 评论 -
Hadoop入门(10)_通过java代码实现从本地的文件上传到Hadoop的文件系统
http://my.oschina.net/cuitongliang/blog/155954第一步:首先搭建java的编译环境。创建一个Java Project工程,名为upload。 第二步:选中所需的Jar包。 选中JRE System Library 选择BuildPath Configure Build Path 选择had转载 2015-08-06 18:56:10 · 936 阅读 · 0 评论 -
Linux(例如CentOS 7)打开TCP 22端口,基于SSH协议
http://blog.csdn.net/libaineu2004/article/details/49428285其实,CentOS 7安装完成,默认是已经打开了22端口的。SSH 为 Secure Shell 的缩写,由 IETF 的网络工作小组(Network Working Group)所制定;SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠,专转载 2016-05-01 11:06:24 · 1103 阅读 · 0 评论 -
HADOOP基本操作命令
http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1. 进入HADOOP_HOME目录。2转载 2016-06-26 10:52:19 · 268 阅读 · 0 评论 -
Apache Hadoop 2.7.1正式版发布(稳定版)
Apache Hadoop 2.7.1于美国时间2015年07月06日正式发布,本版本属于稳定版本,是自Hadoop 2.6.0以来又一个稳定版,同时也是Hadoop 2.7.x版本线的第一个稳定版本,也是 2.7版本线的维护版本,变化不大,主要是修复了一些比较严重的Bug(其中修复了131个Bugs和patches)。比较重要的特性请参见《Hadoop 2.7.0发布:不适用于生产和不支持J转载 2016-06-26 17:09:30 · 1708 阅读 · 0 评论 -
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)
http://www.open-open.com/lib/view/open1330605869374.html一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右 HDFS存储特点:(1) 流式读取方式,主要是针对转载 2016-07-11 14:43:17 · 794 阅读 · 0 评论 -
HBase hbck——检察HBase集群的一致性
http://blog.csdn.net/xiao_jun_0820/article/details/28602213HBase提供了hbck命令来检查各种不一致问题。hbck的名字仿效了HDFS的fsck命令,后者是一个用于检查HDFS中不一致问题的工具。下面这段非常易懂的介绍出自于hbck的源程序。 检查数据在Master及RegionServer的内存中状态与数据转载 2015-08-07 20:49:12 · 1500 阅读 · 0 评论 -
LSM-Tree (BigTable 的理论模型)
http://www.cnblogs.com/raymondshiquan/archive/2011/06/04/2072630.htmlLSM-Tree (BigTable 的理论模型)Google的BigTable架构在分布式结构化存储方面大名鼎鼎,其中的MergeDump模型在读写之间找到了一个较好的平衡点,很好的解决了web scale数据的读写问题。Merge转载 2015-08-07 20:39:17 · 354 阅读 · 0 评论 -
Windows安装和使用zookeeper
http://www.cnblogs.com/shanyou/archive/2013/07/28/3221990.html之前整理过一篇文章《zookeeper 分布式锁服务》,本文介绍的 Zookeeper 是以 3.4.5 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单转载 2015-03-14 20:04:15 · 391 阅读 · 0 评论 -
私塾在线《深入浅出学 Hadoop- 初级 部分》
http://sishuok.com/forum/blogPost/list/5337.html私塾在线《深入浅出学 Hadoop- 初级 部分》 —— 系列精品教程视频课程地址》》》 http://sishuok.com/product/481整体课程概览第一部分:开始云计算之旅第二部分:初识Hadoop第三部分:Hadoop 环境安装部署转载 2015-05-22 16:19:46 · 496 阅读 · 0 评论 -
Hadoop格式化HDFS报错java.net.UnknownHostException: localhost.localdomain: localhost.localdomain
http://blog.csdn.net/shirdrn/article/details/6562292异常描述在对HDFS格式化,执行hadoop namenode -format命令时,出现未知的主机名的问题,异常信息如下所示:[plain] view plaincopy [shirdrn@localhost bin]$ hadoop namen转载 2015-07-07 19:50:35 · 872 阅读 · 0 评论 -
Linux CentOS下Hadoop伪分布模式安装笔记
http://1632004.blog.163.com/blog/static/2999149720126484614793/一. 概要 经过几天的调试,终于在Linux Cent OS 5.0下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而转载 2015-05-25 20:03:56 · 413 阅读 · 0 评论 -
Centos6.5 安装JDK
http://my.oschina.net/cennac/blog/215573安装JDK分为两种方式 一种是解压tar.gz配置安装, 一种是rpm安装。一、tar.gz包安装方式 1.先看看OpenJDK的安装包$ rpm -qa |grep java tzdata-java-2013b-1.el6.noarch java-1.6.0-op转载 2015-05-25 19:32:52 · 340 阅读 · 0 评论 -
超详细单机版搭建hadoop环境图文解析
转自:http://weixiaolu.iteye.com/blog/1401931安装过程: 一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务六、建立ssh无密码登录本机七、安装hadoop八、在单机上运行hadoop一、安装Linux操作系统 我们转载 2015-05-25 12:12:15 · 405 阅读 · 0 评论 -
零基础学习hadoop到上手工作线路指导(编程篇)
原文链接:http://www.aboutyun.com/thread-8329-1-1.html问题导读:1.hadoop编程需要哪些基础?2.hadoop编程需要注意哪些问题?3.如何创建mapreduce程序及其包含几部分?4.如何远程连接eclipse,可能会遇到什么问题?5.如何编译hadoop源码? 阅读此篇文章,需要转载 2015-07-13 12:36:07 · 403 阅读 · 0 评论 -
Eclipse提示No java virtual machine
原文地址:java virtual machine(转载)" style="text-decoration:none; color:rgb(33,128,36)">Eclipse提示No java virtual machine(转载)作者:readom1980第一次运行Eclipse,经常会提示下面的问题:... No java virtual machine was foun转载 2015-07-13 13:13:19 · 847 阅读 · 0 评论 -
使用java api操作Hadoop文件
http://www.cnblogs.com/xuqiang/archive/2011/06/03/2042526.html使用java api操作Hadoop文件1. 概述 2. 文件操作2.1 上传本地文件到hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4 读取文件3.转载 2015-07-14 18:40:39 · 454 阅读 · 0 评论 -
windows7+eclipse+hadoop2.5.2环境配置
http://www.cnblogs.com/huligong1234/p/4137133.html一.hadoop集群环境配置 参考我的前一篇文章(ubuntu + hadoop2.5.2分布式环境配置 http://www.cnblogs.com/huligong1234/p/4136331.html) 但本人配置时还修改了如下内容(由于你的环境和我的可能不一致,可转载 2015-07-14 19:32:57 · 344 阅读 · 0 评论 -
SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: xxx
http://www.cnblogs.com/nattyq/p/3458565.html刚配置hadoop2.2,格式化namenode时候报的这个错。原因是hadoop在格式化HDFS的时候,通过hostname命令获取到的主机名在/etc/hosts文件中进行映射的时候,没有找到,也就是名字不一样。这里需要修改一下用户的主机名。查看自己用户的主机名:hostname查看转载 2015-07-07 19:23:16 · 4525 阅读 · 0 评论 -
集群安装完毕,该如何测试和使用集群-hadoop单机(伪分布)
本帖最后由 pig2 于 2014-2-8 22:56 编辑http://www.aboutyun.com/thread-6777-1-1.html集群安装完毕,该如何测试和使用集群:运行hadoop首先进入hadoop所在目录,第一次执行要格式化文件系统bin/hadoop namenode –format 启动bin/start-all.sh 用jps命令查看进程,显示转载 2015-07-07 20:18:04 · 857 阅读 · 0 评论 -
Hadoop集群(第6期)_WordCount运行详解
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,M转载 2015-07-28 16:27:11 · 327 阅读 · 0 评论 -
hadoop 在win系统中的eclipse开发测试问题及解决
http://duguyiren3476.iteye.com/blog/1843198hadoop 在win系统中的eclipse开发测试问题及解决一· 在win系统下安装cygwin的步骤不在赘述,常见错误如下:问题1]Java代码 # /usr/local/sbin/sshd /usr/local/sbin/sshd: error whi转载 2015-07-28 16:07:36 · 546 阅读 · 0 评论 -
[淘宝经验] - HBASE在淘宝网的应用和优化小结
下载: http://walkoven.com/hbase optimization and apply summary in taobao.pdfhttp://www.eygle.com/digest/2012/03/hbase_at_taobao.html1 前言hbase是从hadoop中分离出来的apache顶级开源项目。由于它很好地用java实现了google转载 2015-08-07 20:03:32 · 1113 阅读 · 0 评论 -
CentOS7.0安装配置hadoop2.7.0
http://blog.csdn.net/circyo/article/details/46724335CentOS7.0安装配置hadoop2.7.0资源准备资源下载:hadoop-2.7.0.tar.gz 密码:727yjdk-8u45-linux-x64.tar.gz 密码:d8bmCentOS-7.0-1406-x86_64-DVD.iso 密码:1a7转载 2016-06-22 17:43:45 · 365 阅读 · 0 评论