Hadoop研究
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,充分利用集群的威力进行高速运算和存储,最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算
漫天雪_昆仑巅
程序人生
展开
-
Zookeeper配置说明
最近看了篇说明zookeeper的文章还可以,摘抄一下:zookeeper功能非常强大,可以实现诸如分布式应用配置管理、统一命名服务、状态同步服务、集群管理等功能,我们这里拿比较简单的分布式应用配置管理为例来说明。简单来说zookeeper=文件系统+监听通知机制。Zookeeper维护一个类似文件系统的数据结构:------------------------------------------...原创 2018-07-12 15:19:43 · 466 阅读 · 0 评论 -
hadoop错误Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\winutils.exe
在hadoop/bin目录下缺少了winutils.exe和hadoop.dllException in thread "main" java.lang.RuntimeException: java.io.FileNotFoundException: Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\w...原创 2018-07-04 16:53:57 · 11264 阅读 · 0 评论 -
Hue安装配置
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。很早以前就听说过Hue的便利与强大,一直没能亲自...原创 2018-06-28 15:11:39 · 849 阅读 · 0 评论 -
HDFS常用命令
进入hadoop/bin目录:【fs最常用命令】hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹hadoop fs -rm hdfs_path //删除HDFS上的文件hadoop fs -rmr hdfs_path //删除HDFS上的文件夹h...原创 2018-06-28 14:29:02 · 814 阅读 · 0 评论 -
Hadoop没有datanode节点解决
Hadoop启动之后jps查看,[root@VM_0_3_centos hadoop]# jps23488 NameNode23746 SecondaryNameNode24100 Jps23959 ResourceManager24057 NodeManager9068 Bootstrap可以看到少了DataNode,出现这种问题的原因有很多,如下:1、nameNode进行format多次,导致...原创 2018-06-19 21:00:06 · 16233 阅读 · 1 评论 -
Hadoop伪分布模式配置
Hadoop共有三种部署方式:本地模式,伪分布模式及集群模式;本次安装配置以伪分布模式为主,即在一台服务器上运行Hadoop(如果是分布式模式,则首先要配置Master主节点,其次配置Slave从节点)。以下说明如无特殊说明,默认使用root用户登录主节点,进行以下的一系列配置。1、安装配置JDK并配置环境变量2、 SSH(Secure Shell)的免密码登录[root@VM_0_3_c...原创 2018-06-13 13:41:23 · 1503 阅读 · 1 评论 -
Hadoop并行计算原理与分布式并发编程
我们通常说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统,它是在通信网络互联的多处理机体系结构上执行任务的,包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。Hadoop是分布式软件系统中文件系统这一层的软件,它实现了分布式文件系统和部分分布式数据库的功能。Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储原创 2013-02-04 11:25:05 · 5350 阅读 · 0 评论 -
系统吞吐量(TPS)、用户并发量、性能测试概念和公式
系统吞吐量(TPS)、用户并发量、性能测试概念和公式发表于: DataBase, Linux, UNIX, Windows, 个人日记 | 作者: 谋万世全局者一.系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust 对CPU消耗越高,外部系统接转载 2013-02-16 12:03:23 · 1296 阅读 · 0 评论 -
用Sqoop把数据从HDFS导入到关系型数据库
由于工作的需求,需要把HDFS中处理之后的数据转移至关系型数据库中成为对应的Table,在网上寻找有关的资料良久,发现各个说法不一,下面是本人自身测试过程:使用Sqoop来实现这一需求,首先要明白Sqoop是什么? Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到H原创 2013-02-16 18:02:52 · 6547 阅读 · 6 评论 -
Hadoop多Job并行处理
有关Hadoop多Job任务并行处理,经过测试,配置如下:首先做如下配置:1、修改mapred-site.xml添加调度器配置: mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.FairScheduler2、添加jar文件地址配置: hadoopTest.jar 所生成jar的地址原创 2013-02-18 22:54:35 · 8807 阅读 · 1 评论 -
HDFS多文件Join操作
最近在做HDFS文件处理之时,遇到了多文件Join操作,其中包括:All Join以及常用的Left Join操作,下面是个简单的例子;采用两个表来做left join其中数据结构如下:A 文件:a|1b|2|cB文件:a|b|1|2|c即:A文件中的第一、二列与B文件中的第一、三列对应;类似数据库中Table的主键/外键代码如下:impor原创 2013-02-18 23:20:54 · 2204 阅读 · 0 评论 -
Hadoop之Join时 DataJoin软件包问题
在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕,但reduce总是不能执行完成,进度卡在66.66%。mapper输出是想要的格式,而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态,发现key不变,“numOfValues”的值却一直在增大如下格式错误:key...:1294823 > reduce;key...:2346134>原创 2013-02-20 18:06:13 · 1541 阅读 · 0 评论 -
Hadoop : MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任转载 2013-02-22 11:48:41 · 6452 阅读 · 0 评论 -
HDFS文件常用操作
弄了段时间hadoop的HDFS,用了些常用的HDFS文件操作,记录如下,以作Memo: /*** @Title: uploadLocalFileToHDFS* @Description: 单个本地文件拷贝到HDFS* @param @param localPath 本地文件路径* @param @param hdfsPath HDFS文件路径* @param @原创 2013-02-25 12:06:31 · 5808 阅读 · 1 评论 -
Hadoop格式化HDFS报错java.net.UnknownHostException: centos0
在hadoop安装配置过程中,对HDFS格式化$ hdfs namenode -format出现错误;java.net.UnknownHostException: centos0如下:查看机器名称$ hostname解决方式:修改hosts映射文件vi /etc/hosts修改成以下配置,centos0为机器名称,127.0.0.1 localhost c原创 2017-09-05 09:22:11 · 1725 阅读 · 0 评论 -
HDFS格式化错误 SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException
$ 格式化hdfs namenode -formatHadoop在格式化HDFS的时候,需要把主机名hostname与/etc/hosts文件中进行的映射配置一直才可以执行没有找到,则会出现一下错误:SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException将 hostname 与 /etc/hosts改成一致即可。原创 2017-11-13 15:18:03 · 10668 阅读 · 1 评论 -
keepalived和zookeeper对比
keepalived与zookeeper都可以用来实现高可用,高可用一般跟负载均衡会一起考虑,所以通常也会考虑到相应的负载均衡能力,以下是Keepalived与Zookeeper的对比:一、概括对比:1、Keepalived:优点:简单,基本不需要业务层面做任何事情,就可以实现高可用,主备容灾。而且容灾的宕机时间也比较短。缺点:也是简单,因为VRRP、主备切换都没有什么复杂的逻辑,所以无法应对某些原创 2018-01-15 17:28:18 · 9152 阅读 · 0 评论