hadoop
文章平均质量分 75
大彪先生
大彪的日常思考分享,程序猿看世界,不仅仅是技术。 :)
展开
-
hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: java.io.IOException:
情况:master(h21) JobTracker,SecondaryNameNode,NameNode都启动了。 slave(h22,h23)的TaskTracker,DataNode也都启动了。 但是在master(h21)机器上看,却没有可用的DateNode节点。 hdfs(put 命令)上传文件的时候也会报错 网上说清理data ,tmp文件夹,检查原创 2015-03-21 10:56:35 · 4711 阅读 · 1 评论 -
StormDRPC 概念以及简单例子测试
Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。 DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语spout,bolt, topology而成的一种模式(pattern)。Storm原创 2015-07-08 22:10:31 · 3332 阅读 · 0 评论 -
Zookeeper实现服务上下线监控服务列表
package com.billstudy.zookeeper;import java.util.ArrayList;import java.util.List;import java.util.concurrent.TimeUnit;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedE原创 2015-06-25 22:37:24 · 1935 阅读 · 0 评论 -
MapReducer-找共同好友
package com.billstudy.mr.friends;import java.io.IOException;import java.util.Arrays;import java.util.concurrent.TimeUnit;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.原创 2015-06-25 22:31:04 · 688 阅读 · 0 评论 -
ZooKeeper典型应用场景一览
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是,ZK并非天生就是为这些应用场景设计的,都是后来众多开发者根据其框架的特性,利转载 2015-06-25 22:40:12 · 533 阅读 · 0 评论 -
Zookeeper实现分布式锁
package com.billstudy.zookeeper;import java.util.ArrayList;import java.util.List;import java.util.concurrent.TimeUnit;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedE原创 2015-06-25 22:38:57 · 514 阅读 · 0 评论 -
HBase shell
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row原创 2015-06-02 22:40:15 · 478 阅读 · 0 评论 -
sqoop 和mysql相关操作
数据迁移工具,可以和RDBMS相互迁移数据需要先将db driver copy to sqoop lib dir注意: sqoop是以mapreduce的方式来运行任务的,用hdfs来存储数据的。所以依赖NameNode和ResourceManager,只要机器上配置了这两个就可以正常运行,程序运行时会自动读取环境变量.原创 2015-06-02 22:42:47 · 525 阅读 · 0 评论 -
hbase 概念 + 搭建分布式HA应用
HBase - Hadoop Databasehbase的设计思想来自于google的bigtable主键:Row Key主键是用来检索记录的主键,访问Hbase table 中的行,只有三种方式通过单个Row Key 访问通过Row Key 的range全表扫描列族:Column Family列族原创 2015-06-02 22:39:46 · 723 阅读 · 0 评论 -
HDFS写文件解析
client通过DistributedFileSystem对象调用create()方法创建文件,实际上通过RPC调用了NameNode的方法。NameNode收到client的请求之后,执行各种检查(1.确认要传文件目前在HDFS上不存在,2.client具有写的权限)如果通过则会为新文件创建一条记录,并返回一个FSDataOutputStream对象,该对象负责DataNode和NameNode原创 2015-06-02 22:46:40 · 667 阅读 · 0 评论 -
hadoop版本与支持的hbase版本对照表
As of Hive 0.9.0 the HBase integration requires at least HBase 0.92, earlier versions of Hive were working with HBase 0.89/0.90以下内容来自下载的HBASE-0.94.7的book中( $HBASE_HOME/docs/book/configuration.ht原创 2015-05-27 22:22:03 · 631 阅读 · 0 评论 -
eclipse 远程调试hadoop代码
zxxJPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前原创 2015-05-27 22:14:10 · 1169 阅读 · 0 评论 -
HDFS读取文件步骤
client调用FileSystem.open(),该FileSystem指向的实例是DistrbutedFileSystem(DFS),它通过RPC请求到Namenode.Namenode收到请求后,对于每一个块返回存有该副本的Datanode地址。并且依照“网络拓扑”来排序。(就近原则)DFS获取到BlockLocations后,可以根据当前读取偏移量计算指定DataNode并进行通讯,返原创 2015-05-27 22:08:44 · 1418 阅读 · 0 评论 -
eclipse develop hadoop chmod :Cannot run program "chmod": CreateProcess error=2, ?????????
在window eclipse上测试hadoop 程序时,出现不能执行chmod问题。 需要安装cygwin程序:点击下载x64 cygwin具体安装步骤,网上很多文章有介绍了。 错误如下:15/04/19 14:41:29 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, se原创 2015-04-19 14:40:29 · 2350 阅读 · 0 评论 -
hadoop-wordcount demo
package com.billstudy.hdfs;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.had原创 2015-04-19 15:51:45 · 466 阅读 · 0 评论 -
hadoop设计基础和目标-笔记01
硬件错误是常态,因此需要冗余.流式数据访问,即数据批量读写而非随机读写,Hadoop擅长做的数据分析而不是事务处理大规模数据集简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,也就是说:文件一经过写入,关闭就再也不能修改!程序采用“数据就近”原则分配节点执行.NameNode:1.管理文件系统的命名空间2.记录每个文件数据块原创 2015-03-22 10:43:12 · 601 阅读 · 0 评论 -
hadoop - hdfs base operation (Java api )
package com.billstudy.hdfs.test;import java.io.ByteArrayInputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import java.net.URL;import org.apache.hado原创 2015-03-22 10:45:05 · 474 阅读 · 0 评论 -
HDFS客户端的权限错误:Permission denied
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。(如果想看最终解决问题的方法拉到最后,如果想看我的问题解决思路请从上向下看)问题描述上传文件的代码: p转载 2015-03-22 07:22:10 · 515 阅读 · 0 评论 -
Hadoop 2.4.1 搭建Ha遇到问题记录
15/06/19 17:12:44 ERROR namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException: Invalid configuration: a shared edits dir must not be specified if HA is not enabled. // 明明我配置了H原创 2015-07-08 22:35:00 · 8524 阅读 · 0 评论