hadoop
文章平均质量分 54
magina_lil
java开发
展开
-
hadoop的计数器
MapReduce的计数器主要用来记录job的执行进度和状态,有些像日志的概念,在MapReduce程序中插入计数器,记录数据或进度(例如map处理了多少字节数据,当前有多少条数据不符合格式...)MapReduce计数器可以记录job运行期间的细节数据,进行性能调优MapReduce自带的计数器只要知道计数器的组名(groupName)和计数器名称(counterName)就原创 2015-11-04 09:32:36 · 466 阅读 · 0 评论 -
修改hdfs的副本数量
线上存储不够,将HDFS副本数由3减为2.重启集群无效。该参数是clinet端有效,既对新写入的数据设置2个副本。已存在的数据副本还是3个执行命令将某目录下数据副本改为2hadoop dfs -setrep -w 2 -R /user执行 hdfs balancer 均衡集群数据参考资料:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dis...原创 2018-03-16 18:52:49 · 13151 阅读 · 3 评论 -
Hadoop参数汇总
linux参数以下参数最好优化一下:文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数JVM方面的优化项Hadoop Performance Tuning GuideHadoop参数大全适用版本:4.3.0主要配置文件:转载 2016-07-20 10:34:02 · 470 阅读 · 0 评论 -
MapReduce的map端join
用的都是旧的API,不知道怎么使用新的APIimport java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apach原创 2016-07-05 15:26:01 · 324 阅读 · 0 评论 -
Mapreduce之间的参数传递
对于复杂的数据可以考虑把数据保存的公共的结点,然后在map'的setup方法中去读取这个文件,从而获得共享的数据,而对于简单的数据可以用conf进行传递。在驱动函数里面Configuration conf2=getConf();conf2.set("temp", String.valueOf(123));Job job2 = new Job(conf2, "Idf"转载 2016-07-02 16:17:51 · 775 阅读 · 0 评论 -
理解Zookeeper
Zookeeper在yarn和hdfs中的HA zookeeper会对ResourceManager和NameNode节点相关进程进行监控,他们之间一直在通信,当zookeeper发现RM和NM挂掉的时候,就会通过选举的方式选举另外一个节点对外提供服务,把standby改为active分布式锁Zookeeper是一个分布式协调服务。这样我们就可以利用Zookeeper来协调多个原创 2015-11-26 15:52:11 · 2583 阅读 · 0 评论 -
Flume-ng的原理和使用
1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover转载 2015-11-19 17:25:10 · 597 阅读 · 0 评论 -
初步了解HDFS与MapReduce
hadoop是一个开源框架,可编写和运行分布式应用和处理大规模数据核心是HDFS以及MapReduceHDFS 分布式文件系统HDFS具备的优点: 1)高容错性,数据自动保存多个副本在不同机架上,提高容错性,副本数低于最小副本数时会自动备份,我们无需关心具体实现2)适合批处理,通过移动计算,而不是移动数据3)适合大数据,处理数据达到TB甚至PB级,能够处理百万以上规原创 2015-10-15 14:32:26 · 780 阅读 · 0 评论 -
Hadoop中Writable和WritableComparable区别
Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1> Writable:void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException; 也就是读数据和转载 2015-10-16 09:34:57 · 1195 阅读 · 0 评论 -
HDFS的架构及原理
读文件:client node启动client JVM 调用FileSystem的open方法获取DistributedFileSystem实例DistributedFileSystem通过RPC从nameNode获取第一批block的locations,这些block通过拓扑排序, 优先级:同节点>同机架>其他机架前两步会返回一个FSDataInputStream对象,该对象呗封装成原创 2015-10-20 10:18:10 · 589 阅读 · 0 评论 -
HDFS过滤合并并上传文件demo
将所有文件夹内的.txt文件合并,并上传到hdfs中合并后如下:package files;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;原创 2015-10-20 12:02:46 · 670 阅读 · 0 评论 -
hadoop的文件压缩
目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自转载 2015-11-04 15:12:57 · 920 阅读 · 0 评论 -
Flink 并行度详解
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Jiny_li/article/details/86482112 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/pho...转载 2019-03-13 20:52:21 · 2655 阅读 · 0 评论