Hadoop
卢子墨
这个作者很懒,什么都没留下…
展开
-
hadoop多次(两次以上)初始化以后,无法启动DataNode节点(已解决)
1、问题描述: 多次格式化文件系统时,会出现datanode无法启动2、问题产生原因: 执行文件系统格式化时(即执行命令$ bin/hadoop namenode -format 后),会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION(我的路径为 usr/local/hadoop/tmp/dfs/name/curre...转载 2018-05-11 10:31:55 · 9295 阅读 · 0 评论 -
批处理与流处理详解
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提...转载 2019-09-18 16:35:51 · 7487 阅读 · 2 评论 -
shell中如何判断HDFS中指定文件目录或文件是否存在
在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在:# 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!"fi但是我们想判断HDFS上某个文件是否存在咋办呢?别急,Hadoop内置提供了判断某个文件是否存在的命令:[iteblog@www.iteblog.com ~]$ hadoo...原创 2019-08-30 15:39:03 · 1320 阅读 · 0 评论 -
Hadoop老版本下载镜像
http://mirror.bit.edu.cn/apache/hadoop/common/原创 2019-06-17 15:20:34 · 2450 阅读 · 0 评论 -
Hadoop集群的webUI监控界面设置Simple安全机制
业务需求:Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。1、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。<property> <name>hadoop.http.filter.initializers</name> <v...原创 2019-06-10 15:13:19 · 2899 阅读 · 2 评论 -
更改pip源至清华、阿里镜像
https://blog.csdn.net/weixin_40240670/article/details/80616834转载 2019-04-22 10:56:15 · 507 阅读 · 0 评论 -
MR性能调优
Map Side1.从磁盘读取数据并分片默认每个block对应一个分片,一个map task2.进行map处理运行自定义的map业务过程3.输出数据到缓冲区中map输出的数据并不是直接写入磁盘的,而是会先存储在一个预定义的buffer中4、分区、排序分组的过程对map输出的数据进行分区,按照key进行排序和分组5、归约(可选)相当于本地端的reduce过程...转载 2019-03-28 11:08:43 · 725 阅读 · 0 评论 -
关于HDFS元数据块丢失解决办法
缘由:由于失误,误将hadoop.tmp.dir指定文件夹下的filecache文件删除了,由此导致存储在hdfs集群的元数据丢失,造成hadoop集群启动之后一直处于安全模式开启状态。//查询Hadoop集群安全模式状态[hadoop@hadoop01 ~]$hdfs dfsadmin -safemode get//开启Hadoop集群安全模式状态[hadoop@hadoop0...原创 2019-01-31 14:29:06 · 8335 阅读 · 0 评论 -
Eclipse 连接Hadoop Connection refused 问题(已解决)
修改:vi /etc/hosts127.0.0.1 localhost192.168.159.128 hadoop01 www.hadoop.org再试了一下,eclipse 成功连接了。究其原因,可能是eclipse读取配置文件,hdfs默认名为 hdfs://www.hadoop.org:9000 ,在ubuntu中执行时,www.hadoop...原创 2018-10-26 16:46:06 · 2319 阅读 · 0 评论 -
MapReduce多表join
本文以user.log、goods.log两张表的合并来举例。1、编写mapper类class JoinMRMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(LongWritable key, Text value, Context context) th...原创 2018-05-23 11:21:16 · 507 阅读 · 0 评论 -
MapReduce 的 Shuffle 机制
1.1、概述1、MapReduce 中,map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle;2、Shuffle: 数据混洗 ——(核心机制:数据分区partitioner,排序soft,合并combiner,缓存);3、具体来说:就是将 maptask 输出的处理结果数据,分发给 reducetask,并在分发的过程中...原创 2018-05-25 17:29:23 · 338 阅读 · 0 评论 -
解决MapReduce中多个小文件合并成大文件问题
package inputformat;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop...原创 2018-05-25 16:29:35 · 2733 阅读 · 1 评论 -
Hadoop中创建maven项目是需要的pom依赖
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m...原创 2018-05-11 10:44:02 · 6280 阅读 · 0 评论 -
HDFS的数据压缩格式
https://www.jianshu.com/p/b50bc3f8819c4种常用压缩格式在Hadoop中的应用目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。1.gzip压缩优点: 压缩率比较高,而且压缩/解压速度也比较快;...转载 2019-09-18 16:46:13 · 1744 阅读 · 0 评论