Hadoop|谁说大象不能跳舞
文章平均质量分 66
Hadoop基础及实战必知必会
且听_风吟
你还年轻,去爱去恨去相信,去追去梦去后悔。生命就该浪费在美好的事物上,还有资本,别怕失败。
展开
-
深入分析zookeeper(理论加实战)
本文目录一、zookeeper基础1.1、什么是zookeeper?1.2、文件系统1.2、监听通知机制二、实际生产中的作用2.1、配置管理2.2、统一命名服务2.3、分布式锁2.4、集群管理等服务三、纸上得来总觉浅,zookeeper实战3.1、使用docker安装zookeeper最新版3.1.1、下载zookeeper镜像3.1.2、启动容器并暴露2181端口3.1.3、查看容器状态3.1....原创 2020-03-20 16:56:08 · 2271 阅读 · 32 评论 -
深入分析hadoop之YARN原理、架构、作业流程及调度器
一、YARN的原理1.1、yarn是什么?首先看一下官方对于这个词汇的解释:Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,在Hadoop2引入,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。划重点,这里...原创 2020-03-19 12:12:35 · 1584 阅读 · 20 评论 -
深入分析MapReduce之Shuffle原理和数据处理流程
本文目录一、重新认识shuffle1.1、什么是shuffle?1.2、有什么作用?二、shuffle流程详解2.1、Map端shuffle流程2.1.1、整体概括(方便记忆)2.1.2、详细解析(方便理解)2.2、Reduce端shuffle流程2.2.1、整体概括(方便记忆)2.2.2、详细解析(方便理解)一、重新认识shuffle1.1、什么是shuffle?shuffle在词典里的翻...原创 2020-03-17 20:22:17 · 1635 阅读 · 4 评论 -
深入分析HDFS原理及读写流程
本文目录一、架构体系1.1、什么是HDFS?1.2、组成HDFS的各模块作用1.2.1、Client1.2.2、NameNode1.2.3、DataNode1.2.4、SecondaryNameNode二、数据读写2.1、读数据2.2、写数据三、优缺点一、架构体系1.1、什么是HDFS?HDFS即Hadoop Distributed File System的简称,采用Master/Slave...原创 2020-03-12 17:29:46 · 8364 阅读 · 22 评论 -
Pig和Hive有什么不同
Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS)原创 2016-12-23 13:53:12 · 2072 阅读 · 0 评论 -
Eclipse在连接hadoop时Unsupported major.minor version 51.0问题解决
1:出现错误:Exception in thread "main" java.lang.UnsupportedClassVersionError: wordcount/WordMain : Unsupported major.minor version 51.0是因为从Eclipse中导出的jar的jdk版本不合适,一般的hadoop不支持1.7,可以将java改成1.6,然后重新导出,覆盖之原创 2016-12-23 20:35:35 · 2744 阅读 · 0 评论 -
hadoop 1.x 伪分布式安装配置
1.hadoop的伪分布安装1.1 设置ip地址执行命令service network restart验证:ifconfig1.2 关闭防火墙执行命令service iptables stop验证:service iptables status1.3 关闭防火墙的自动运行执行命令chkconfig iptables off验证:chkco原创 2016-12-23 20:46:36 · 2238 阅读 · 0 评论 -
hdfs一致性模型解析
文件系统的一致模型描述了对文件读写的数据可见性。HDFS为性能牺牲了一些POSIX请求,因此一些操作可能比想像的困难。在创建一个文件之后,在文件系统的命名空间中是可见的,如下所示:1. Path p = new Path("p"); 2. Fs.create(p); 3. assertThat(fs.exists(p),is(true));转载 2017-03-22 11:00:31 · 3225 阅读 · 0 评论 -
hadoop 2.5 分布式集群安装配置
配置规划: NN DN ZK ZKFC JN RM NMNode1 1 1 1 1 Node2 1 1 1 1 1 1 Node3 1 1 1 1 Node4 1 1 1 补充:克隆虚拟机出现网卡不识别 需要原创 2017-03-22 11:12:55 · 454 阅读 · 0 评论 -
hadoop从零开始--linux下jdk,tomcat,mysql的安装
1. 安装JDK1.上传jdk-7u45-linux-x64.tar.gz到Linux上2.解压jdk到/usr/local目录tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/local/3.设置环境变量,在/etc/profile文件最后追加相关内容vi /etc/profileexport JAVA_HOME=/u原创 2017-03-23 11:55:31 · 651 阅读 · 0 评论 -
大数据各组件默认端口号汇总
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:jobhistory WEB UI端口...转载 2018-07-23 01:25:41 · 3427 阅读 · 1 评论 -
Elasticsearch+Hbase实现海量数据秒回查询
文章出处:http://blog.csdn.net/sdksdk0/article/details/53966430作者:朱培 ID:sdksdk0 --------------------------------------------------------------------------------------------首先祝大家2017新年快乐,转载 2017-01-03 14:53:01 · 15529 阅读 · 3 评论 -
分布模式安装ZooKeeper
ZooKeeper(以下简称ZK)是一个分布式协调服务框架,可以做到各节点之间的数据强一致性。简单的理解就是在一个节点修改某个变量的值后,在其他节点可以最新的变化,这种变化是事务性的。通过在ZK节点上注册监听器,就可以获得数据的变化。1.确定集群结构我们打算在三个节点安装ZK,分别是192.168.1.221(hadoop1)、192.168.1.222(hadoop2)、192.168.原创 2016-12-22 21:34:50 · 1880 阅读 · 0 评论 -
HBase 结构设计
在设计 HBase 结构时, 需要考虑以下一般性原则:? 访问 HBase 数据最高效的方式是使用基于行键的 Get 或 Scan 操作。 HBase 不支持任何二级键/索引。 这意味着在理想情况下, 行键的设计应该包含特定表所需要的全部访问模式。 这通常意味着需要使用复合行键来容纳更多的数据访问模式? 一条一般性的原则是将每个表的列族数限定为不超过10~ 15(记住 HBase 将每原创 2016-12-22 21:29:54 · 1825 阅读 · 1 评论 -
分布式锁服务ZooKeeper
zookeeper概述针对分布式应用的分布式协作服务,zookeeper的开发动机就是为了减轻分布式应用从头开发协作服务的负担。设计目标简单。 允许多个分布的进程基于一个共享的,类似标准文件系统的树状名称空间进行协作。每个节点称作一个znode。ZooKeeper is replicated几个zookeeper集群包含多个zookeeper server, 称作一个ensem原创 2016-12-22 13:54:39 · 2282 阅读 · 0 评论 -
Hadoop 2.0 Yarn代码:心跳驱动服务分析
当RM(ResourcesManager)和NM(NodeManager)陆续将所有模块服务启动,最后启动是NodeStatusUpdater,NodeStatusUpdater将用Hadoop RPC远程调用ResourcesTrackerService中的函数,进行资源是初始化等操作,为将要运行的Job做好准备。以下主要分析在Job提交之前 RM与NM在心跳的驱动下操作。AD:hado原创 2016-12-22 13:57:21 · 1876 阅读 · 0 评论 -
HBase回放Hlog顺序不一致的问题
在HBase的主从复制集群中, 如下图左所示,Region-Server-X以及Region-Server-Y是master集群中的两个Region-Server。正常情况下, 对Region-A的写入会在Region-Server-X上append log 到Hlog-X,然后Region-Server-X会异步地将该部分Hlog批量地应用(apply)到slave-cluster中。 此时,若原创 2016-12-22 14:00:12 · 1926 阅读 · 0 评论 -
Tomcat下Solr安装配置
由于Solr基于java开发,因此Solr在windows及Linux都能较好部署使用,但由于Solr提供了一些用于测试及管理、维护较为方便的shell脚本,因此在生产部署时候建议安装在Linux上,测试时候可以在windows使用。下面以Linux下安装配置Solr进行说明,windows与此类似。wgethttp://apache.mirror.phpchina.co ... e-to原创 2016-12-22 21:08:51 · 1780 阅读 · 0 评论 -
HData——ETL 数据导入/导出工具
HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参考了开源的Sqoop、DataX,却与之有不同的实现。HData采用“框架+插件”的结构,具有较好的扩展性,框架相当于数据缓冲区,插件则为访问不同的数据源提供实现。原创 2016-12-22 21:11:19 · 2558 阅读 · 1 评论 -
solr从pdf、office文档中建立索引
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler这个handler首先要在solrConfig.xml中配置,如下所示: tika-data-config.xml原创 2016-12-22 21:14:06 · 1989 阅读 · 0 评论 -
Docker底层存储结构
Docker底层存储结构 由于aufs并未并入内核,故而目前只有Ubuntu系统上能够使用aufs作为docker的存储引擎,而其他系统上使用lvm thin provisioning(overlayfs是一个和aufs类似的union filesystem,未来有可能进入内核,但目前还没有;Lvm snapshot are useful for doing e.g. backup of a原创 2016-12-22 21:15:26 · 2055 阅读 · 0 评论 -
hive关系运算详解
关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1;2. 不等值比较:原创 2016-12-22 21:16:35 · 2335 阅读 · 0 评论 -
zookeeper注意几点
Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理1. ZooKeeper是否对ZNode有大小限制如果你仔细看过ZooKeeper的原创 2016-12-22 21:20:37 · 1939 阅读 · 0 评论 -
windows下的Eclipse连接虚拟机中的hadoop,操作过程中报节点无法识别问题解决
在windows下用Eclipse连接虚拟机中linux下的hadoop时,当在java代码中指明:“节点名:9000”之类时,如果报无法识别节点的异常在排除hadoop未启动等低级错误后,最有可能的一种错误是window的hosts文件未添加该节点名对应的IP。hosts文件所在目录目录:C:\Windows\System32\drivers\etc原创 2016-11-23 20:05:23 · 2040 阅读 · 0 评论