HDFS
come on
Knight_AL
这个作者很懒,什么都没留下…
展开
-
org.apache.hadoop.ipc.RemoteException:User: xxx is not allowed to impersonate root
hadoop.proxyuser.xxx.hosts和hadoop.proxyuser.xxx.groups中的xxx设置为root(即你的错误日志中显示的User:xxx为什么就设置为什么)。“*”表示可通过超级代理“xxx”操作hadoop的用户、用户组和主机。设置主机代理,为hadoop安装目录下的core-site.xml添加如下配置。原创 2023-10-26 11:27:50 · 361 阅读 · 0 评论 -
hdfs dfsadmin -safemode无法退出安全模式
如提示Safe mode is OFF,那就说明退出成功,但有时候这个命令也没办法退出安全模式,就需要使用强制退出。forceExit 强制退出安全模式。safemode 后面可以接。get 获取安全模式的状态。wait 等待安全模式结束。第一种:正常退出安全模式。第二种:强制退出安全模式。enter 进入安全模式。leave 退出安全模式。原创 2023-10-20 17:31:37 · 789 阅读 · 0 评论 -
WritableComparable排序案例实操(全排序)
import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBean implements WritableComparable<FlowBean>...原创 2020-04-25 19:17:59 · 577 阅读 · 0 评论 -
NLineInputFormat使用案例
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public cl...原创 2020-04-24 23:05:38 · 377 阅读 · 0 评论 -
序列化案例实操
import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class FlowBean implements Writable{ private long upflow; private lo...原创 2020-04-13 13:29:19 · 263 阅读 · 0 评论 -
自定义OutputFormat案例实操
1.需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;im...原创 2020-05-02 22:40:41 · 289 阅读 · 0 评论 -
Mapreduce的环境准备
在pom.xml文件中添加如下依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </depen...原创 2020-04-12 20:30:12 · 200 阅读 · 0 评论 -
Partition分区案例实操
import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;//这里的kv是mapper输出的kvpublic class ProvincePartitioner extends Partitioner<Text,FlowBean> { public int getPa...原创 2020-04-25 11:31:58 · 693 阅读 · 0 评论 -
log4j:WARN Please initialize the log4j system properly解决方案
在main方法中加入BasicConfigurator.configure();成功原创 2020-04-27 21:59:27 · 636 阅读 · 0 评论 -
Mapreduce打包集群上测试
<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1...原创 2020-05-06 16:58:29 · 458 阅读 · 0 评论 -
WordCount案例实操
import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public cl...原创 2020-04-12 21:48:29 · 330 阅读 · 0 评论 -
CombineTextInputFormat案例实操
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public c...原创 2020-04-24 21:43:39 · 327 阅读 · 0 评论 -
GroupingComparator分组案例实操
import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class OrderBean implements WritableComparable<OrderBean&g...原创 2020-05-02 22:36:34 · 224 阅读 · 0 评论 -
KeyValueTextInputFormat使用案例(统计输入文件中每一行的第一个单词相同的行数)
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class KVTextMapper extends Mapper<Text,T...原创 2020-04-24 22:36:38 · 425 阅读 · 0 评论 -
WritableComparable排序案例实操(区内排序)
import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBean implements WritableComparable<FlowBean> ...原创 2020-04-27 22:03:27 · 425 阅读 · 0 评论 -
MapReduce编程实现按词频统计的排序输出
先计数后排序计数import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class WordcountMapper extends Mapper<LongWrita原创 2020-06-22 11:07:11 · 3700 阅读 · 4 评论 -
Hadoop-lzo的编译
环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool原创 2022-05-09 00:00:00 · 353 阅读 · 0 评论 -
hadoop安全模式无法强制关闭的问题
解决方案首先去看报错日志看报错叫我们用forceexit原创 2021-07-17 12:08:24 · 212 阅读 · 0 评论 -
Hadoop3.x的安装部署
安装hadoop1.解压安装文件到/opt/module下面tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/2.将Hadoop添加到环境变量vim /etc/profile##HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-3.1.3export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin3.环境变量生效sou原创 2021-05-24 11:26:39 · 793 阅读 · 0 评论 -
企业数据切割写入到hdfs
目标:将数据按照年月日的结构,将相同日期的数据整理到一个文件。 现有历史数据,一类数据在一个文件中。这个文件中包含了多天、多月、甚至多年的数据。生产系统中需要将这些数据分区存储,即一天一个分区。当天的数据放在当天的分区中。 要实现这个功能需要将数据进行拆分。遍历数据中的每一条数据,判断每条数据的所属日期(数据中包含日期格式的数据),将相同日期原创 2021-03-19 15:37:13 · 154 阅读 · 0 评论 -
启动hadoop,报错Error JAVA_HOME is not set and could not be found
启动hadoop报错解决方案检查java -version在hadoop-env.sh中,再显示地重新声明一遍JAVA_HOME原创 2021-02-22 10:07:04 · 830 阅读 · 0 评论 -
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=19095, access=WRITE, inode="/hadoop/test":root:supergroup:drwxr-xr-x错误:用户没有权限解决:# 修改权限hadoop fs -chmod -R 777 /...原创 2021-02-09 23:41:07 · 882 阅读 · 0 评论 -
FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain java.io.IOException:
2021-01-30 21:35:37,008 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMainjava.io.IOException: failed to stat a path component: '/var/run/hdfs-sockets'. error code 2 (No such file or directory) at org.apache.hadoop.net.unix.D原创 2021-01-30 21:41:24 · 1658 阅读 · 0 评论 -
There are 17 missing blocks. The following files may be corrupted:
打开hadoop网页出现There are 17 missing blocks. The following files may be corrupted:发现data怎么也起不来!解决方案1.查看缺失文件hdfs fsck /2.删除缺失的文件hadoop fsck -delete原创 2021-01-30 21:28:55 · 835 阅读 · 0 评论 -
hadoop中的垃圾回收站
回收站保留半小时数据[root@hadoop302 hadoop]# vim core-site.xml<property><name>fs.trash.interval</name><value>30</value></property>展示我们准备删除test删除发现已经删掉了恢复查看结果...原创 2021-01-06 17:11:20 · 267 阅读 · 0 评论 -
Hadoop-小文件存档
小文件存档(如果小文件特别多,一个小文件都会占用namenode中150个字节)案列实操(1)需要启动YARN进程start-yarn.sh(2)归档文件如果没有数据,就把hadoop下的三个文件上传[donglin@hadoop202 hadoop-3.1.3]$ hadoop fs -mkdir /input [donglin@hadoop202 hadoop-3.1.3]$ hadoop fs -put LICENSE.txt /input[donglin@hadoop202 ha原创 2020-11-10 11:53:04 · 186 阅读 · 0 评论 -
Hadoop 3.1.3的安装部署(HA)
目录HDFS HA搭建ResouceManager HA搭建启动集群HDFS HA搭建(1)上传压缩包到software文件夹,并进行解压[root@hadoop202 servers]# cd /export/software/[root@hadoop202 software]# tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/(2)分发export目录下hadoop文件夹[root@hadoop202 software]# cd /expo原创 2020-10-17 11:39:58 · 1708 阅读 · 2 评论 -
Hadoop参数调优
1.资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)(2)应该在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml)(3)Shuffle性能优化的关键参数,应在YARN启动之前就配置好(mapred-default.xml)...原创 2020-09-26 17:53:07 · 198 阅读 · 0 评论 -
【Hadoop】- Gzip , BZip2 , Lzo Snappy 四种方式的优缺点和使用场景
目录GzipBZip2LzoSnappyGzip优点1.压缩解压速度快 , 压缩率高 , hadoop本身支持2.处理压缩文件时方便 , 和处理文本一样3.大部分linux 系统自带 Gzip 命令 , 使用方便缺点1.不支持切片使用场景1.文件压缩后在130M以内 (一个块大小) , 都可以使用 GZip 压缩(因为Gzip唯一的缺点是不能切片)2.总结 : 不需要切片的情况下 可以使用BZip2优点1.压缩率高(高于Gzip)2.可以切片3.hadoop自带 使用方便缺点转载 2020-07-20 22:29:24 · 812 阅读 · 0 评论 -
Call From haodoop13/127.0.0.1 to localhost:42471 failed on connection exception
Call From haodoop13/127.0.0.1 to localhost:42471 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:http://wiki.apache.org/hadoop/ConnectionRefused解决办法检查/etc/hosts 是否对应自己的主机名检查一下自己的名字 hostname 如果不对原创 2020-07-20 16:05:33 · 147 阅读 · 0 评论 -
hdfs-API运行报错(缺少winutils.exe hadoop.dll)
HDFS:API操作查看hadoop的bin目录有没有winutils文件 如果没有在java程序会报错拷贝hadoop.dll文件到Windows目录C:\Windows\System32链接:https://pan.baidu.com/s/1X-Np_g0rVCnxr-GN4ypsJg提取码:cf0y原创 2020-06-03 23:17:58 · 461 阅读 · 0 评论 -
Replication与Availability不一致
遇到的问题副本数设置的3,Availability只有一台机子的执行hadoop fsck -locations发现Number of data-nodes:1解决方案:网上说删除每个虚拟机上对应的data目录,我试了不行我的解决方案:namenode的格式化hdfs namenode -format注意:把hadoop下的logs和tmp删除,再格式化...原创 2020-06-02 23:03:12 · 301 阅读 · 1 评论 -
hadoop集群时间同步
1.检查ntp是否安装输入rpm -qa|grep ntp这表示没有安装 ,然后输入yum -y install ntp进入 vi /etc/ntp.conf修改成功!修改/etc/sysconfig/ntpd文件vi /etc/sysconfig/ntpd增加内容SYNC_HWCLOCK=yes重启ntpd服务service ntpd statusservice ...原创 2020-03-19 13:38:31 · 241 阅读 · 0 评论 -
解决You have new mail in /var/spool/mail/root提示
1.查看内容cat /var/spool/mail/root2.解决方法关闭提醒echo "unset MAILCHECK" >> /etc/profile立即生效source /etc/profile可以查看占用多大ls -lth /var/spool/mail清空cat /dev/null > /var/spool/mail/root我遇到的问题...原创 2020-03-19 19:38:35 · 782 阅读 · 0 评论 -
HDFS环境客户端的环境和测试
hadoop的环境变量然后打开eclipse,,然后设置maven,否则有问题然后打开pom.xml注释:2.7.7是我hadoop的版本,根据你的版本来定 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> &...原创 2020-03-20 10:26:21 · 384 阅读 · 0 评论 -
HDFS的API操作(文件上传 下载 删除 名更改 详情查看 文件夹的判断 )
1.首先在eclipse创建注意获取fs对象要设置一下,这个获取fs对象是简便写法(标准的写法在另外一篇博客HDFS环境客户端的环境和测试)一般都设置成rootpackage com.client;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import ...原创 2020-03-21 19:48:58 · 505 阅读 · 0 评论 -
HDFS:文件IO流下载操作(把本地磁盘的文件上传到HDFS的目录,把HDFS上文件上传到本地磁盘上)
import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.commons.co...原创 2020-03-21 19:54:54 · 963 阅读 · 0 评论 -
Fsimage和Edits解析
使用hdfs命令,可以看到oiv和oevoiv的用法hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径cat fsimage.xml将显示的xml文件内容拷贝到Eclipse中创建的xml文件中,并格式化!source里面有格式化oev的用法hdfs oev -p 文件类型 -i编辑日志 -o 转换后文件输出路径注意:你查看edits_xxxxx ...原创 2020-03-22 09:02:19 · 229 阅读 · 0 评论 -
hadoop中datanode启动成功了,但jps没有的问题
首先进入有data 和 name查看clusterID这个是data里面的这个是name里面的把data的clusterID改成name的clusterID注释:格式化之后会导致name和data的id不一样,但是你单独启动datanode没事,一旦启动namenode,datanode将不会显示...原创 2020-03-22 10:39:40 · 1834 阅读 · 0 评论 -
NameNode故障处理
方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;1.kill -9 NameNode进程2. 删除NameNode存储的数据(/opt/module/hadoop-2.7.7/data/tmp/dfs/name)看自己name的路径3.拷贝SecondaryNameNode中数据到原NameNode存储数据目录在启动hadoop-daemon...原创 2020-03-22 14:36:37 · 182 阅读 · 0 评论