hadoop
UpUpUpUpUpUpUp
up
展开
-
Hadoop2.5+HA+zk3.4.6集群搭建
部署分布图1.core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://bjsxt</value></property><property> <name>ha.zookeeper.quorum</name> <value>hadoop1:2181,hadoop2:2181,原创 2015-07-27 13:53:52 · 566 阅读 · 0 评论 -
sqoop基础笔记
sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里 3.使用 第一类:数据库中的数据导入到HDFS上 sqoop import –connect jdbc:mysql://192.168.1.10:3306/xchadoop –username原创 2015-08-27 17:40:04 · 409 阅读 · 0 评论 -
sqoop执行报错ERROR tool.ImportTool: Encountered IOException running import job: java.io.FileNotFoundExce
ERROR tool.ImportTool: Encountered IOException running import job: java.io.FileNotFoundException: File does not exist: hdfs://xchadoop/usr/local/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/snappy-java-1.0.原创 2015-08-27 18:18:38 · 9662 阅读 · 1 评论 -
java.net.NoRouteToHostException: No route to host
关闭防火墙哎原创 2015-07-23 18:09:54 · 2045 阅读 · 3 评论 -
Hadoop-2.5伪分布式+Hive-1.0.1+mysql
hadoop伪分布式0:免密码登录1:jdk环境变量 2:修改5个配置文件:#修改hadoop的环境变量hadoop-env.sh 1:exprot JAVA_HOME=(echo $JAVA_HOME)core-site.xml: <property> <name>fs.defaultFS</name>#用来指定hdfs的namenode的地址原创 2015-07-24 19:42:57 · 941 阅读 · 0 评论 -
hive和mysql关联相对应表详情
1:mysql中TBLS表存hive创建的table name;2:mysql中 columns_v2存table对应ID;3:mysql中sds存放table中字段的类型原创 2015-09-01 20:23:58 · 1465 阅读 · 0 评论 -
hadoop中两个namenode都是standby
执行: hdfs haadmin -transitionToActive –forcemanual nn1原创 2015-09-02 14:43:16 · 3489 阅读 · 0 评论 -
hive内外部表查询
外部表: 先上传数据,在创建外部表,查询。 如:create external table ext_student (id int,name string) row format delimited fields terminated by '\t' location '/data'; 内部表: 先创建表,在上传数据,到指定目录。 都是可以查原创 2015-09-02 15:35:18 · 676 阅读 · 0 评论 -
storm常见问题解决方案
发布topologies到远程集群时,出现Nimbus host is not set异常 原因是Nimbus没有被正确启动起来,可能是storm.yaml文件没有配置,或者配置有问题。 解决方法:打开storm.yaml文件正确配置:nimbus.host: “xxx.xxx.xxx.xxx”,重启nimbus后台程序即可。发布topologies到远程集群时,出现AlreadyAliveE原创 2015-12-11 12:28:59 · 1133 阅读 · 0 评论 -
zookeeper分布式共享锁curator案例
引入的jar包maven: 还需要hadoop-common的jar和guava的jar,均在hadoop包里面。。。。<dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-client</artifactId> <version>2.8.原创 2015-12-11 12:10:59 · 1259 阅读 · 0 评论 -
kafka集群笔记
kafka笔记 1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5/每一个分区都可以有多个副原创 2015-12-11 12:23:38 · 457 阅读 · 0 评论 -
storm集群部署
1、安装一个zookeeper集群2、上传storm的安装包,解压3、修改配置文件storm.yaml所使用的zookeeper集群主机 storm.zookeeper.servers: - “weekend05” - “weekend06” - “weekend07”nimbus所在的主机名 nimbus.host: “weekend05”superviso原创 2015-12-11 12:25:33 · 432 阅读 · 0 评论 -
hadoop版本与支持的hbase版本对照表
S = 支持且已测试, X = 不支持, NT = 可以运行,但未充分测试。原创 2015-07-21 12:24:22 · 758 阅读 · 0 评论 -
HBase 实现原理以及系统架构详解
好用的东西,总能找到对应的开源实现,这就是开源得魅力。下面一张图看下Hbase的前世今生:HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典型的key/value系统; HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲,HBase将数据按照表、行和列进行存储。 与hadoop一原创 2015-07-21 11:48:28 · 6785 阅读 · 0 评论 -
zookeeper使用场景
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是,ZK并非天生就是为这些应用场景设计的,都是后来众多开发者根据其框架的特性,利用其提转载 2015-07-27 14:08:17 · 409 阅读 · 0 评论 -
SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException
报错:SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: centos148: centos148: Name or service not known刚配置hadoop1.2,格式化namenode时候报的这个错。 请查看自己的hostname 我的hostname和并没有添加到自己的hosts文件192原创 2015-07-08 17:20:14 · 3491 阅读 · 0 评论 -
NameNode,SecondaryNameNode与Datanode文件详解
HDFS流程图详解Namenode所存储信息 1. NN是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求 2. 文件包括: fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 edits:操作日志文件。 3. fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件原创 2015-07-28 11:22:16 · 2223 阅读 · 0 评论 -
JobTracker和TaskTracker详解
一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:(1)概述:JobTracker是一个后台服务进程,启转载 2015-07-13 11:24:23 · 16039 阅读 · 1 评论 -
./hadoop jar报错classnotfound
解决方案: 检查 Job job = new Job(conf); job.setJarByClass(JobRun.class); job.setMapperClass(WcMapper.class); job.setReducerClass(WcReducer.class);原创 2015-07-13 15:44:18 · 625 阅读 · 0 评论 -
HDFS读写过程
读过程1:初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2:FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。 3:FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。 4:DF原创 2015-07-28 13:53:34 · 477 阅读 · 0 评论 -
mapreduce数据倾向
什么情况下出现数据倾斜呢?只有在一大部分数据使用一个reduce执行,一小部分是另外一个reduce执行。原创 2015-07-17 12:26:03 · 523 阅读 · 0 评论 -
MapReduce执行流程图解
上图是官方的mapreduce的图解,下面我们进行执行流程具体分析。MR执行流程分析: 1. :run job。 客户端提交一个mr的jar包给JobClient(提交方式:./hadoop jar ··· ) 2. get new job ID。 JobClient通过RPC和JobTracker进行通信,返回一原创 2015-07-17 11:33:26 · 1072 阅读 · 0 评论 -
Operation category READ is not supported in state standby解决
hdfs写的那台机器是待机状态的,所以不支持,要在active 机器中写才行。hdfs haadmin -transitionToActive --forcemanual nn1 再次访问就变一active,一个standy原创 2015-07-17 14:19:57 · 16178 阅读 · 2 评论 -
dfs权限问题
在HDFS-site.xml有一个禁用权限的属性。。。 dfs.permissions true | false dfs权限是否打开,我一般设置false,通过开发工具培训别人界面操作避免误操作,设置为true有时候会遇到数据因为权限访问不了。原创 2015-07-13 13:25:49 · 3664 阅读 · 0 评论 -
转:Hbase与Oracle比较(列式数据库与行式数据库)
1 主要区别1.1、Hbase适合大量插入同时又有读的情况1.2、 Hbase的瓶颈是硬盘传输速度,Oracle的瓶颈是硬盘寻道时间。Hbase本质上只有一种操作,就是插入,其更新操作是插入一个带有新的时间戳的行,而删除是插入一个带有插入标记的行。其主要操作是收集内存中一批数据,然后批量的写入硬盘,所以其写入的速度主要取决于硬盘传输的速度。Oracle则不同,因为他经常要随机读写,这样硬盘磁头需要不转载 2015-07-20 16:20:30 · 1988 阅读 · 0 评论 -
Spark集群搭建
Spark集群是建立在hdfs分布式基础上的,首先我们准备hdfs分布式环境(zookeeper)。1:其次我们需要下载scala,因为spark是基于scala语言编写的。 下载地址:http://www.scala-lang.org/download/2.10.4.html2:安装和配置Scala我们需要在SparkMaster(hadoop01)、SparkWorker1(hadoop05)原创 2015-12-14 17:52:37 · 422 阅读 · 0 评论