hadoop
文章平均质量分 73
JamesFen
这个作者很懒,什么都没留下…
展开
-
hadoop学习路线(转)
刚刚入门hadoop,如何去学习hadoop。google一篇学习路线图,与童鞋们共勉:转自:http://blog.csdn.net/zhoudaxia/article/details/8801769-----------------------------------------------------按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章转载 2014-03-30 10:48:56 · 1043 阅读 · 0 评论 -
datanode与namenode的通信原理
在分析DataNode时, 因为DataNode上保存的是数据块, 因此DataNode主要是对数据块进行操作. **A. DataNode的主要工作流程:** 1. 客户端和DataNode的通信: 客户端向DataNode的`数据块读写`, 采用TCP/IP流接口(DataXceiver)进行数据传输 2. 客户端在检测到DataNode异常, 主动发起的`数据块恢转载 2014-06-30 16:33:42 · 2297 阅读 · 0 评论 -
Hadoop添加节点datanode(生产环境)
Hadoop添加节点datanode博客分类: hadoopHadoopSSHJDKXML工作 1.部署hadoop 和普通的datanode一样。安装jdk,ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host转载 2014-06-30 16:16:45 · 1152 阅读 · 0 评论 -
Sqoop的安装与使用
Sqoop的安装与使用2013年08月12日 ⁄ hadoop及周边, sqoop ⁄ 共 1674字 ⁄ 字号 小 中 大 ⁄ 4条评论 ⁄ 阅读 3,766 views 次Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换。强大功能见下图以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装转载 2014-07-01 16:53:22 · 769 阅读 · 0 评论 -
把Nutch爬虫部署到Hadoop集群上
原文地址:http://cn.soulmachine.me/blog/20140204/把Nutch爬虫部署到Hadoop集群上Feb 4th, 2014 | Comments软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch转载 2014-07-24 00:06:24 · 2216 阅读 · 0 评论 -
hadoop slf4j-api 1.6.x (or later) is incompatible with this binding
hadoop slf4j-api 1.6.x (or later) is incompatible with this binding 解决方法:原创 2014-07-29 23:01:55 · 2623 阅读 · 1 评论 -
Centos 6.5 hadoop 2.2.0 全分布式安装
Centos 6.5 hadoop 2.2.0 全分布式安装2014-03-21 | categories linux hadoop | tags linux hadoop hadoop 2.2.0 cluster setup环境:操作系统:Centos 6.5jdk:jdk1.7.0_51hadoop版本:2.2.0hostname i转载 2014-09-04 10:09:50 · 1171 阅读 · 0 评论 -
完全分布式Hadoop2.3安装与配置
出处:http://golab.blog.51cto.com/7876557/1365883一、Hadoop基本介绍Hadoop优点1.高可靠性:Hadoop按位存储和处理数据2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快转载 2014-09-08 21:53:04 · 1353 阅读 · 0 评论 -
hadoop-maven项目打包成可执行的jar
环境:cdh5.1.0jdk1.7原创 2014-10-23 14:34:22 · 3501 阅读 · 0 评论 -
zookeeper生成节点、删除节点 For Java
源码地址https://github.com/Bellonor/myhadoop2.x/tree/master/myhadoop2.x/src/main/java/com/jamesfen/zookeeper各个jar包依赖见maven 的pom文件https://github.com/Bellonor/myhadoop2.x/tree/master/myhadoop2.x/src/mai原创 2015-01-11 22:50:18 · 6184 阅读 · 0 评论 -
使用zookeeper实现服务路由和负载均衡
三个类:ServiceAProviderServiceBProviderServiceConsumer其中ServiceAProvider提供的服务名service-A,指向IP为192.168.58.130ServiceBProvider提供的服务名service-A,指向IP为192.168.58.131当有消费者请求时,随机地选取service-A列表的服务器提供服务ServiceConsumer 为消费者类依赖:<dependency> <groupId>org.apach原创 2015-01-11 23:04:31 · 4610 阅读 · 0 评论 -
HBase 协处理器统计行数
环境:cdh5.1.0方法1.启用协处理器 Aggregation(Enable Coprocessor Aggregation)我们有两个方法:1.启动全局aggregation,能过操纵所有的表上的数据。通过修改hbase-site.xml这个文件来实现,只需要添加如下代码: hbase.coprocessor.user.region.classes o原创 2015-01-12 18:13:14 · 4969 阅读 · 1 评论 -
Hadoop中HDFS工作原理
Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNod转载 2014-06-30 14:21:38 · 876 阅读 · 0 评论 -
实现hadoop中的机架感知
hadoop中声明是有机架感知的功能,能够提高hadoop的性能。平时我们使用的hadoop集群,实际上是从来没有使用上这个功能的。 hadoop中所说的机架感知的实现实际上这样的:hadoop启动时会检查hadoop-default.xml和hadoop-site.xml中的一个配置选项:topology.script.file.name,如果这个选项不为空,hadoop就会认为这是转载 2014-06-30 14:12:59 · 1197 阅读 · 0 评论 -
用 R 画中国分省市地图
用 R 画中国分省市地图 (2010-11-18 16:25:34)转载▼标签: 中国地图 营销 杂谈分类: 数据分析用R 也可以做出漂亮的依参数变化的中国地图。主要参考(http://cos.name/author/yixuanq/)R 画中国分省市地图" title="用 R转载 2014-04-03 20:39:29 · 5796 阅读 · 0 评论 -
Ubuntu 12.04搭建hadoop单机版环境
前言: 本文章是转载的,自己又加上了一些自己的笔记整理的 详细地址请查看Ubuntu 12.04搭建hadoop单机版环境Hadoop的三种运行模式独立模式:无需任何守护进程,所有程序都在单个JVM上执行。伪分布模式:Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。全分布模式:Hadoop守护进程运行在一个集群中。一. 安装Ubuntu;二. 在原创 2014-03-24 13:08:43 · 803 阅读 · 0 评论 -
Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上原创 2014-03-24 13:09:50 · 766 阅读 · 0 评论 -
sqoop的安装
sqoop的安装sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.2原创 2014-03-24 13:09:19 · 713 阅读 · 0 评论 -
win7 x64 eclipse_kepler下编译 hadoop1.1.2-celipse-plugin
1、编译前准备a) 下载和解压hadoop-1.1.2.tar.gzb) 下载并配置ant2、配置a) 进入hadoop-1.1.2\src\contrib拷贝build-contrib.xml到eclipse-plugin下2 ) 修改build-contrib.xmli. 修改为自己的路径:原创 2014-03-25 12:01:32 · 1037 阅读 · 0 评论 -
HDFS内容追加
dfs.support.append true追加一个文件原创 2014-04-20 12:42:10 · 4082 阅读 · 0 评论 -
HDFS追加文件
配置:hdfs-site.xml dfs.support.append true追加一个文件package com.wyp; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;原创 2014-04-20 12:46:21 · 1385 阅读 · 0 评论 -
win7中配置eclipse连接Ubuntu内的hadoop
1.设置Ubuntu静态IP: 1hm@hm-ubuntu:~$ ifconfig 1)配置网卡参数到interfaces文件: 1hm@hm-ubuntu:~$ sudo gedit /etc/network/interfaces转载 2014-03-21 20:59:13 · 2073 阅读 · 0 评论 -
hadoop自动安装脚本
还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。另外:需要JDK和Hadoop压缩包第一步: 设置Root用户的SSH 无密码访问 为了之后修改Hosts文件,配置环境变量,拷转载 2014-06-28 20:17:01 · 1279 阅读 · 0 评论 -
hadoop集群监控工具Apache Ambari安装配置教程
ambari 1.2.4 下载地址:http://www.apache.org/dist/incubator/ambari/ambari-1.2.4/ambari-1.2.4-incubating.tar.gz官方手册:http://incubator.apache.org/ambari/1.2.4/installing-hadoop-using-ambari/content/index.转载 2014-06-28 20:21:58 · 2637 阅读 · 0 评论 -
ZooKeeper管理员指南——部署与管理ZooKeeper
本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门,关于这方面,可以查看《ZooKeeper快速搭建》。1.部署本章节主要讲述如何部署ZooKe转载 2014-12-24 14:49:14 · 1149 阅读 · 0 评论