hadoop
听见下雨的声音hb
一期一会,IT人生
展开
-
HDFS存储策略
我们在安装HDFS的时候,我们在hdfs-site.xml配置过DataNode的数据存储的文件目录,如下: 1 2 3 4 5 <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop-twq/bigdata/dfs/data</value> <descri...转载 2020-06-01 15:36:35 · 1064 阅读 · 0 评论 -
Hadoop中查看HDFS中的一个文件的位置信息
指令hadoop fsck /user/hadoop/filename-files -blocks-locations-racks-files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,-racks 在带-files参数后...转载 2019-04-11 14:16:56 · 6311 阅读 · 0 评论 -
Hadoop 设置任务执行的队列以及优先级
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priority,优先级默认有5个:LOWVERY_LOWNORMAL(默认)HIGHVERY_HIGH1、静态设置1.1 Pig版本SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priorit...转载 2019-02-21 11:44:39 · 938 阅读 · 4 评论 -
Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎对比
导读现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎,在原生推荐配置情况下,在不同场景下做一次横向对比,供大家参考。 每年易观都会发布一次这样的大数据开源测评报告,欢迎...转载 2019-01-21 10:52:38 · 15724 阅读 · 5 评论 -
MapReduce源码解析之InputFormat
导读 上一篇文章介绍了MapReduce中Map(映射)的实现者Mapper,本章将会介绍MapReduce中的输入文件的处理者InputFormat。MapReduce程序获取的数据类型多种多样,当程序把数据输入给Mapper时,需要格式化读取,例如读取普通文本文件许需要设置 job.setInputFormatClass(TextInputFormat.class)。所有的输入...原创 2018-12-27 11:30:00 · 287 阅读 · 0 评论 -
MapReduce源码解析之Mapper
导读 说起MapReduce,只要是大数据领域的小伙伴,相信都不陌生。它作为Hadoop生态系统中的一部分,最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型。MapReduce主要由"Map(映射)"和"Reduce(归约)"组成,主要思想是用Map函数用来把一组键值对映射成一组新的键值对,然后指定并发的Reduce函数进行合并输出。然而就是这个简单的分布式思想,却...原创 2018-11-21 14:58:46 · 798 阅读 · 0 评论 -
Hadoop小文件处理
导读 HDFS作为Hadoop生态系统的分布式文件系统,设计是用来存储海量数据,特别适合存储TB、PB量级别的数据。但是随着时间的推移或者处理程序的问题,HDFS上可能会存在大量的小文件,进而消耗NameNode大量的内存,并且延长程序的运行时间。下面我就把对小文件的处理经验总结一下,供大家参考。引言 先来了解一下Hadoop中何为小文件:小文件指的是那些文件...原创 2018-10-17 09:54:33 · 7459 阅读 · 1 评论 -
MR添加第三方依赖包jar
要想让MR程序引用第三方jar文件, 可以采用如下方式:1、通过命令行参数传递jar文件 -libjars;脚本代码样例:export HADOOP_CLASSPATH="thirdpartlib_1.jar,thirdpartlib_2.jar ..."hadoop jar application.jar \-libjars "thirdpartlib_1.jar,third...原创 2018-05-23 10:27:53 · 2366 阅读 · 0 评论 -
数据存储优化 (二):具体优化方式
数据存储优化 (一):存储格式对比Json、ProtocolBuffer通过上一篇文章的分析发现在大数据的应用中proto在存储方面优于Json。数据都进行压缩,proto约为json的1/3数据源 1、日志由前端SDK收集, 2、格式为Json,Json有多种类型,子节的各异 3、不同版本的SDK,Json类别也不同 4、每天的数据量为1.5T(备份3份)...原创 2018-05-10 17:49:47 · 1789 阅读 · 0 评论 -
数据存储优化 (一):存储格式对比Json、ProtocolBuffer
对比Json和ProtocolBuffer 1、JSON因为有一定的格式,并且是以字符存在的,在数据量上还有可以压缩的空间。而ProtocolBuffer上大数据量时,空间比JSON小很多。 2、JSON各个库之间的效率相差比较大,jackson库和GSON就大概有5-10的差距。而GPB只需要一个,没有所谓的多个库的区别。Json样例:{ &amp;amp;quot;DevInfo&amp;amp;quot;:{...原创 2018-05-09 15:28:23 · 1380 阅读 · 0 评论 -
MapReduce文章
1、使用ToolRunner运行Hadoop程序基本原理分析 2、Java命令行选项解析之Commons-CLI &amp;amp;amp;amp; Args4J &amp;amp;amp;amp; JCommander原创 2018-04-18 17:44:02 · 254 阅读 · 0 评论 -
MR案例:Map Join
适用场景:一张表十分小【key不可重复】、一张表非常大。 用法:在Job提交时,首先将小表加载到 DistributedCache 分布式缓存中,然后从DistributeCache中读取小表解析成 key/value 保存到内存中(可以放在Hash Map等容器中)。然后扫描大表中的每条记录的 key 是否能在内存中找到相同 join key 的记录,如果有则直接输出结果。代...原创 2018-04-03 11:30:08 · 464 阅读 · 0 评论 -
MR案例:Left Outer Join
适用场景:适合两个大表连接操作 用法:Join操作在reduce task中完成 【默认的join方式】,map端按照连接字段进行hash,reduce 端完成连接操作代码实现:package join.map;import java.io.IOException;import java.util.ArrayList;import java.util.List;i...原创 2018-04-03 10:51:06 · 483 阅读 · 0 评论 -
日志存储空间优化
背景 在这个大数据时代,数据公司每天都面临大量数据堆积,如果不能有效的利用并发掘他,继而产生价值,那么他同时也会成为一场灾难。无序、无结构的数据堆积,给企业带来的是令人乍舌的高额成本。优化方式时间优化通过时间分区,严格控制日志的存放时间 如:定时删除一年前的数据(业务允许的前提下)…… 空间优化文件个数优化(HDFS存储)减少小文件个数合原创 2018-01-05 17:49:58 · 1010 阅读 · 0 评论 -
hadoop中的shuffle过程(combine->partition)
combine和partition都是函数,中间的步骤应该只有shuffle!combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。combine函数把一个map函数产生的对(多个key,value)合并成一个新的.将新的作为输入到reduce函数中这个value2亦可称之为values,因为有多个。这个合并的目的是为了减少网络传输。原创 2017-07-31 10:57:47 · 937 阅读 · 0 评论 -
Hadoop-2.6.4详细环境搭建
Hadoop-2.6.4详细环境搭建1、 软件下载从官网http://apache.fayea.com/hadoop/common/ 下载hadoop从Oracle官网下载JDK http://www.oracle.com/technetwork/java/javase/downloads/index.html(1.8.25)hadoop-exam原创 2016-08-17 17:59:00 · 379 阅读 · 0 评论