大数据-hadoop
文章平均质量分 92
TMH_ITBOY
System.out.println("代码是程序员的朋友,虽然没有热情,但是很真实");
____The most handsome ITBoy
展开
-
Hive优化指南
Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此,感谢作业的辛勤付出。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化等。此处记录下来,仅为学习和加强记忆。1. 启用压缩压缩可以使磁盘上的数据量变小,例如,文本文件格式能够压缩40%甚至更高的比例,这样可以通过降低I/原创 2021-02-23 16:25:24 · 595 阅读 · 1 评论 -
MapReduce 二次排序
MapReduce 二次排序需求:有这样的一堆数据:22 1222 1322 622 1721 528 7928 6328 1001 7923 841 6367 4518 2319 741 10021 ...原创 2019-10-16 13:30:35 · 217 阅读 · 0 评论 -
多线程读取DBF文件
Java多线程读取大文件需求需要将DBF文件解析后存储到HBase 或者HDFS.起初打算使用Kettle读取,然后转存到HBase,小文件还好,一下子就ok来,但是,遇到一个1G大小(测试阶段,实际生产远远大于1G)的时候,Kettle输出到HBase时实在太慢,可能由于HBase的技术水平有限,再怎么优化,还是很慢.于是想着自己写一个程序解决一下,结果还是和kettle的差不多,就有点尴尬...原创 2019-04-01 23:09:22 · 1051 阅读 · 1 评论 -
YARN资源调度策略
侵删! YARN虽然是从MapReduce发展而来,但其实更偏底层,它在硬件和计算框架之间提供了一个抽象层,用户可以方便的基于YARN编写自己的分布式计算框架,而不用关心硬件的细节。由此可以看出YARN的核心功能:资源抽象、资源管理(包括调度、使用、监控、隔离等等)。从某种程度上说YARN类似于IaaS。YARN的基本概念不再赘述。一...转载 2018-09-30 15:45:07 · 649 阅读 · 0 评论 -
深入理解HDFS
转载于:https://blog.csdn.net/dpengwang/article/details/79297435 侵删。 一、HDFS介绍HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务...转载 2018-08-20 20:27:58 · 301 阅读 · 0 评论 -
总结Spark比Hadoop快的原因
1. 消除了冗余的HDFS读写Hadoop的每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。2. 消除了冗余的MapReduce阶段Hadoop的每次shuffle必将连接着一...原创 2018-08-07 00:55:37 · 2294 阅读 · 2 评论 -
Secondary NameNode:它究竟有什么作用?
原文链接:https://blog.csdn.net/xh16319/article/details/31375197 前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode...转载 2018-07-31 20:42:54 · 362 阅读 · 0 评论 -
什么是Zookeeper,Zookeeper的作用是什么,在Hadoop及hbase中具体作用是什么?
一、什么是Zookeeper ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的,开放源码的分布式...转载 2018-07-31 20:28:07 · 7275 阅读 · 2 评论 -
Hbase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过ge...转载 2018-07-26 17:37:17 · 209 阅读 · 0 评论 -
VMware 下Hadoop集群环境搭建之虚拟机克隆,Hadoop环境配置
在上一篇我们完成了ContOS网络配置以及JDK的安装,这一篇将在上一篇的基础上继续讲解虚拟机的克隆,hadoop环境搭建传送门: VMware 下Hadoop集群环境搭建之新建虚拟机 VMware 下Hadoop集群环境搭建之为虚拟机安装CentOS 6.7 64位系统 VMware 下Hadoop集群环境搭建之CentOS 6.7 网络配置的相关配置,JDK的安装虚拟机...原创 2018-05-05 15:57:47 · 11675 阅读 · 30 评论 -
MapReduce中Initialization of all the collectors failed的解决方案
需求显示输出网站用户的登录记录. 服务后台记录下的日志文件有3个,分别是:所有用户列表文件 user-logu_id name1 小红2 小行3 小通4 小闪5 小镇6 小振7 小秀8 小微9 小懂10 小明11 小刚12 小举13 小黑14 小白15 小鹏16 小习用户性别文件sex-logsex_id sex0 不知道1 男2 女用...原创 2018-05-11 21:00:16 · 5078 阅读 · 4 评论 -
VMware 下Hadoop集群环境搭建之CentOS 6.7 网络配置的相关配置,JDK的安装
传送门: VMware 下Hadoop集群环境搭建之新建虚拟机 VMware 下Hadoop集群环境搭建之为虚拟机安装CentOS 6.7 64位系统这篇文章主要是为上一篇文章新建的ContOS6.7的机器配置网络,JDK的安装.操作前准备:准备好一个安装好CentOS6.7版本系统的虚拟机.如果没有,请看上面传送门的文章.下载XmanagerEnterprise(我使用的是第...原创 2018-04-26 19:16:12 · 3410 阅读 · 1 评论 -
VMware 下Hadoop集群环境搭建之为虚拟机安装CentOS 6.7 64位系统
为上一篇的虚拟机安装CentOS系统这里我使用的是CentOS6.7版本的系统,CentOS7+的系统安装跟6的有所差别,但是据了解,在生产环境大部分厂家还在使用6.5或6.7版本的.下面以6.7版本的来安装.—>安装步骤:点击编辑虚拟机: 进入到虚拟机编辑页面,这里可以重新设置虚拟机的一些参数,比如内存大小,磁盘容量,磁盘类型,处理器,网络适配器等信息,点击 [CDDVD],...原创 2018-04-26 14:46:13 · 2117 阅读 · 0 评论 -
VMware 下Hadoop集群环境搭建之新建虚拟机
一. 环境要求windows: 系统:win7以上 内存:8G+(我有使用过4G的情况,在开启3台linux的时候,CPU使用率高达94%,完全卡得动不了) 磁盘:500G+VMwareLinux 系统: 版本:ContOS 64位 6.5及以上版本hadoop-2.7.5.tar.gz二.操作步骤VMware 安装步骤省略,我使用的...原创 2018-04-25 20:40:42 · 1915 阅读 · 0 评论