Hadoop
Hadoop
梁云亮
电 话:13264494458
微 信:13264494458
扣 扣:369950806
展开
-
Linux 大数据项目无法输出日志文件的解决方法
Hadoop中输出日志信息时,代码没有错误,但是查看不到日志文件。导致这种问题出现的原因是:程序在执行时引用了其他的jar包,引用的jar包中可能包含了其他log4j相关的配置文件。由于log4j配置文件的引用存在优先级,因此程序没有使用我们之前更改的log4j.properties文件,而是使用了jar包中的配置文件,导致更改没有奏效。解决办法,在主方法所在的类中,通过加入代码,直接指定使用...原创 2020-04-17 12:52:01 · 1111 阅读 · 0 评论 -
Hadoop 失败处理机制
任务运行失败任务代码异常 JVM在退出前向application master发送错误报告,报告被记录用户日志 application master将任务标记为failed,释放容器和资源 任务JVM突然退出 JVM软件缺陷而导致MapReduce用户代码由于某些特殊原因造成JVM退出。 NodeManager注意到JVM退出,通知a...原创 2020-04-02 01:12:58 · 776 阅读 · 0 评论 -
hdfs-site.xml 配置参数详情
name value Description dfs.default.chunk.view.size 32768 NameNode 的http访问页面中针对每个文件的内容显示大小,通常无需设置。 dfs.DataNode .du.reserved ...原创 2020-04-02 00:25:25 · 1507 阅读 · 0 评论 -
大数据 常见端口号
HDFS 参数 描述 默认 配置文件 例子值 fs.default.name NameNode NameNode RPC交互端口 8020 core-site.xml hdfs://maste...原创 2020-04-02 00:15:42 · 1137 阅读 · 0 评论 -
分布式文件系统
文件系统用来屏蔽底层存储细节,给用户提供统一的访问接口。见的分布式文件系统有GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。下面分布式文件系统都是类 GFS的产品:HDFS:Hadoop 实现了一个分布式文件系统(Hadoop Distributed Fi...原创 2020-04-02 00:07:39 · 302 阅读 · 0 评论 -
自定义Partitioner
需求将统计结果按照手机号,以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中。(分区)输入数据1863157985066 120.196.100.82 2481 24681 2001363157995033 120.197.40.4 264 0 2001373157993055 120.196.10...原创 2020-03-30 08:26:46 · 346 阅读 · 0 评论 -
迁入别人的镜像到自己的虚拟机
第一步:修改IPcd /etc/sysconfig/network-scripts/vi ./ifcfg-ens33第二步:重启网络Service network restart第三步:修改ip和主机名的对应关系Vi /etc/hosts修改后结果如下图所示:第四步:编辑/etc/resolv.confvi /etc/resolv.conf第五步:Windows系统下C/...原创 2020-03-29 13:25:22 · 796 阅读 · 1 评论 -
Hadoop 历史服务器
相关博客Hadoop3.1.2 集群完全分布式安装配置修改mapred-site.xml,在该文件里面增加如下配置:<!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address</name><value>hcmaster:10020</value>&...原创 2020-03-29 11:52:56 · 263 阅读 · 0 评论 -
Hadoop 日志聚集
相关博客:Hadoop3.1.2 集群完全分布式安装官方示例学习概念日志聚集指的是应用运行完成以后,将程序运行日志信息上传到HDFS系统上。配置在搭建Hadoop集群环境,修改yarn-site.xml,在该文件里面增加如下配置。<!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enab...原创 2020-03-29 11:38:54 · 322 阅读 · 0 评论 -
Hadoop 官方示例学习
准备工作在hdfs根目录创建文件夹input,然后将hadoop的etc/hadoop目录下所有的xml文件拷贝到这个目录中:求单词个数查看结果:求包含以dfs开头的字符串及其个数(grep案例)查看结果:求PI结果...原创 2020-03-29 11:28:02 · 419 阅读 · 0 评论 -
Hadoop 集群启动关闭脚本
前置博客Hadoop启动命令汇总启动创建第一步:在/usr/local/bin目录下创建文件xstart-hadoop.sh,编辑内容:#!/bin/bashecho "================ hcmaster DFS start..... ==============="ssh hc@hcmaster '/usr/local/hadoop3.1.2/sbin/sta...原创 2020-03-20 10:55:28 · 789 阅读 · 0 评论 -
java.lang.NoSuchMethodError: 'void org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(ja
错误解决办法添加Maven依赖:<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-auth</artifactId> <version>3.1.2</version></dependenc...原创 2020-03-10 12:50:29 · 3972 阅读 · 1 评论 -
Hadoop:找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster
问题执行wordcount命令时,hadoop找不到或无法加载主类,org.apache.hadoop.mapreduce.v2.app.MRAppMaster解决方案:输入命令 hadoop classpath2.将输出的内容直接复制到yarn-site.xml文件中:<property> <name>yarn.application.clas...原创 2019-11-24 23:57:00 · 4761 阅读 · 0 评论 -
hadoop启动报错: java.lang.NoClassDefFoundError:/org/apache/hadoop/yarn/server/timelineCollectorManager
hadoop启动报错“ org/apache/hadoop/yarn/server/timelineservice/collector/TimelineCollectorManager”,主要是缺少timelineCollectorManager的jar包,解决方案:将hadoop3.1.2 版本将share\hadoop\yarn\timelineservice\hadoop-yarn-se...原创 2019-11-28 10:41:37 · 1122 阅读 · 0 评论 -
AccessControlException: Permission denied: user=stu, access=WRITE, inode="/":zpark:supergroup:drwxr-
Java代码操作HDFS上传文件时,报错:Hadoop:org.apache.hadoop.security.AccessControlException: Permission denied: user=stu, access=WRITE, inode="/":zpark:supergroup:drwxr-xr-x原因是文件夹的拥有者不对:解决方案:修改aa文件夹的拥有者及其所属的组:...原创 2019-11-28 11:11:55 · 547 阅读 · 0 评论 -
Hadoop:HADOOP_HOME and hadoop.home.dir are unset
Hadoop环境启动报错:util.Shell: Did not find winutils.exe: {}java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset解决方案:原创 2019-11-28 11:16:41 · 4054 阅读 · 1 评论 -
No job jar file set. User classes may not be found. See Job or Job#setJar(String).
Hadoop执行MapReduce报警告信息:No job jar file set. User classes may not be found. See Job or Job#setJar(String).解决方案一:工程项目打包,放到工程根目录下,然后修改代码: cfg.set("mapred.jar", "flow.jar"); //其中 flow.jar为导出jar包名称,...原创 2019-12-05 11:23:11 · 1532 阅读 · 0 评论 -
Name node is in safe mode.
错误org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete /tmp/hadoop-yarn/staging/hc/.staging/job_1581354172751_0001. Name node is in safe mode...原创 2020-02-11 02:13:49 · 380 阅读 · 0 评论 -
Hadoop启动关闭命令汇总
分步启动启动NameNodehdfs --daemon start NameNode启动DataNodehdfs --daemon start DataNode启动secondary NameNodehdfs --daemon start secondaryNameNode启动resourcemanageryarn --daemon start resourc...原创 2020-02-18 16:52:15 · 2651 阅读 · 0 评论 -
MapReduce整合Avro
前置博客:搭建Hadoop3.1.2伪分布方式环境本博客示例中可能出现的错误及解决方案:Name node is in safe mode.Container killed on request. Exit code is 143简介在开发之初,Avro就是围绕着完善Hadoop生态系统的数据处理而开展的(使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场...原创 2020-02-11 11:36:58 · 376 阅读 · 0 评论 -
全排序
关闭网页弹出提示对话框实现一<!DOCTYPE html><html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <script type="text/javascript" s...原创 2019-12-11 09:42:49 · 258 阅读 · 0 评论 -
区内排序
Intellij中MAVEN项目打JAR包的简单方法在pom.xml的build标签中添加如下内容:<plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.8.1</version> ...原创 2019-12-05 00:23:08 · 279 阅读 · 0 评论 -
MapReduce 自定义分区
将手机号中以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中。数据:12384188413 192.168.100.3 4116 1432 20013590439668 192.168.100.4 1116 954 20015910133277 192.168.100.5 3156 2936 20013729199489 192.168....原创 2019-12-10 18:20:48 · 497 阅读 · 0 评论 -
InputFormat 之 CombineTextInputFormat
前置课程: HDFS开发环境搭建示例:统计单词个数准备工作在hdfs的根目录下创建input文件夹,然后在里面放置4个大小分别为1.5M、35M、5.5M、6.5M的小文件作为输入数据具体代码Mapper类public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {...原创 2019-12-06 15:36:44 · 364 阅读 · 0 评论 -
FileInputFormat 之 TextInputFormat
单词个数统计前置课程: HDFS开发环境搭建准备工作在hdfs的根目录下创建input文件夹,然后在里面放置一些文本文件具体代码Mapper类public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private Text mapOutputKey = ...原创 2019-12-06 15:17:09 · 704 阅读 · 0 评论 -
FileInputFormat 之 KeyValueInputFormat
数据代码实现Mapperpublic class KVInputFormatMapper extends Mapper<Text, Text, Text, LongWritable> { protected void map(Text key, Text value, Context context) throws IOException, InterruptedExc...原创 2019-12-06 13:30:28 · 545 阅读 · 0 评论 -
FileInputFormat 之 NlineInputFormat
数据Call me by your name and I'll call you by mine.请以你的名字呼唤我,我亦将如此。In spite of you and me and the whole silly world going to pieces around us, I love you.我爱你,直到世界终结。Then she's horrible alcohol, tob...原创 2019-12-06 13:24:34 · 259 阅读 · 0 评论 -
Hadoop 自定义序列化数据类型
需求流量求和:统计每一个手机号耗费的总上行流量、下行流量、总流量输入数据1363157985066 120.196.100.82 2481 24681 2001363157995033 120.197.40.4 264 0 2001363157993055 120.196.100.99 132 1512 20013631...原创 2019-12-05 13:14:48 · 542 阅读 · 0 评论 -
MapReduce 统计单词个数(wordcount)
统计单词个数创建项目按下图所示在resources目录下创建文件夹input,在其中提供文件wc.txt:注意:不要创建output目录,系统会自动创建。否则会报目录已存在的错。wc.txt文件的内容:hello hadoop and hello javaI love javaLiang He CaiMapper类public class TokenizerMapper ext...原创 2019-12-04 22:36:58 · 3912 阅读 · 1 评论 -
HDFS上传下载文件的基本流程
写文件(上传文件)流程:client端发送写文件请求,NameNode 检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用DataNode 节点client将文件分块,并行存储到不同节点上的DataNode中,发送完成后,client同时发送信息给NameNode 和DataNodeNameNode 收到的client信息后,发送确信信息给DataNode...原创 2019-12-04 11:21:26 · 1066 阅读 · 0 评论 -
HDFS 参数优先级测试
结论:参数从高到低:代码中指定的>项目中配置文件中指定的>Hadoop环境中用户指定的>default示例1:测试Hadoop环境中用户指定的什么配置文件都不需要,只需要如下代码:public static void main(String[] args) throws Exception { Configuration cfg = new Configurati...原创 2019-12-04 00:19:40 · 285 阅读 · 0 评论 -
HDFS开发环境搭建
文章目录准备工作(必须)第一步:创建Maven形式的Java项目第二步:添加Maven依赖第三步:搭建项目框架并测试实现一:将要访问的Hadoop的配置信息写在Java代码中实现一:将要访问的Hadoop的配置信息写在xml文件中准备工作(必须)启动CentOS端的Hadoop系统windows安装Hadoop环境,请参考win10安装hadoop3.1.2第一步:创建Maven形式的...原创 2019-12-03 22:59:23 · 632 阅读 · 0 评论 -
HDFS客户端编程
准备工作启动CentOS端的Hadoop系统第一步:创建Maven形式的Java项目第二步:添加Maven依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4...原创 2019-11-27 13:36:52 · 547 阅读 · 0 评论 -
HDFS常用Shell命令
文章目录语法案例-help:帮助-ls: 显示目录信息-mkdir:在HDFS上创建目录–touchz:在HDFS上创建空文件-appendToFile:追加一个文件到已经存在的文件末尾-cat:显示文件内容-chgrp 、-chmod、-chown:修改文件所属权限-rm:删除文件或文件夹-moveFromLocal:从本地剪切粘贴到HDFS-copyFromLocal:从本地文件系统中拷贝文件...原创 2019-11-26 14:30:14 · 927 阅读 · 0 评论 -
搭建Hadoop3.1.2伪分布方式环境
文章目录0、准备工作:为Hadoop配置环境变量1、启动HDFS运行MapReduce1)配置集群2)启动集群3)查看集群2、启动YARN运行MapReduce1)配置集群2)启动集群3)查看集群3、配置历史服务器1)配置集群2)启动集群3)查看集群4、配置日志聚集1)配置集群2)启动集群3)查看集群0、准备工作:为Hadoop配置环境变量切换root用户,编辑/etc/profile...原创 2019-11-26 09:50:32 · 818 阅读 · 0 评论 -
大数据各软件版本适配信息
参考:Apache HBase ™ Reference Guide原创 2019-11-24 16:22:19 · 570 阅读 · 0 评论 -
Hadoop RPC
8020端口8020是namenode节点active状态下的端口号。在core-site.xml下的配置:<property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>hdfs://hcmaster:8020</value></proper...原创 2019-11-24 16:11:12 · 244 阅读 · 0 评论 -
win10安装hadoop3.1.2
1、安装环境win10 64位jdk1.8hadoop3.1.22、安装jdk1.8,并配置环境变量3、安装配置hadoop3.1.23.1、下载下载地址:Hadoop3.1.23.2、 解压并配置环境变量hadoop安装文件到安装目录配置HADOOP_HOME环境变量,并在path中加入%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;下载wi...原创 2019-11-24 15:52:46 · 1694 阅读 · 1 评论 -
【精品】利用CentOS7 搭建 Linux 集群
常用命令vi 显示行号 :set nu终止命令:ctrl+c清屏:方式一:clear+回车方式二:ctrl+L改变文件拥有者chown --R 组名:用户名 文件夹名称解压tar --zxvf 压缩包名 --C 解压到的位置移动文件夹关机shutdown --h nowCentOS集群安装集群说明主机名xmaste...原创 2019-09-29 02:51:59 · 2550 阅读 · 1 评论 -
Hadoop基础 二
HDFSHDFS读流程图客户端发出读数据请求,Open File指定读取的文件路径,去找namenode要元数据信息。namenode将文件的元数据信息返回给客户端。客户端根据返回的元数据信息,去对应的datanode去读块数据。假如一个文件特别大,比如1TB,会分成好多块,此时,namenode并是不一次性把所有的元数据信息返回给客户端。客户端读完此部分后,再去想namenode...原创 2019-10-26 23:19:31 · 239 阅读 · 0 评论