Hadoop
文章平均质量分 92
ErbaoLiu
安徽大学 计算数学 本硕
展开
-
Windows或者Linux本地提交mapreduce上yarn坑记
Windows或者Linux上local模式运行Windows或者Linux上yarn模式运行Windows或者Linux上远程提交到yarn(1)问题一2021-02-22 20:24:16,478 INFO [main] client.RMProxy (RMProxy.java:createRMProxy(98)) - Connecting to ResourceManager at single/192.168.128.11:80322021-02-22 2...原创 2021-02-23 19:25:34 · 811 阅读 · 0 评论 -
MapReduce Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1173))
写了一个mapreduce程序,控制台输出如下:2020-07-19 19:13:06,845 INFO [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1173)) - session.id is deprecated. Instead, use dfs.metrics.session-id2020-07-19 19:13:06,849 INFO [main] jvm.JvmMetrics (Jv..原创 2020-07-19 19:19:00 · 1278 阅读 · 0 评论 -
gson+mapreduce解析Json数据保存到多个文件中(Json含多层嵌套数组)
直接上代码。涉及技术点:- Json解析成关系型数据表结构- MapReduce多文件输出- 消除MapReduce默认文件输出格式(1)FileOutputFormatpackage com.leboop.www.json;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.ha原创 2020-07-18 16:48:55 · 708 阅读 · 0 评论 -
MapReduce如何去除reducer阶段,如何去除map的排序?
以WordCount为例,假设已经按正常情况编写了Mapper和Reducer,主程序中job如下设置:Job job = Job.getInstance(conf,"Word-Count");job.setJarByClass(WordCountMain.class);job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);job.setOutputKey...原创 2020-06-30 22:51:43 · 998 阅读 · 0 评论 -
Job jar is not present. Not adding any jar to the list of resources
eclipse开发mapreduce程序,本地可以正常运行,使用eclipse打包上传到Linux上,使用hadoop jar命令执行,报错如下:[root@single test]# hadoop jar salarysum.jar hdfs://single:9000/input/emp.txt /outputSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [rsrc:org/slf4j/im.原创 2020-06-27 21:32:47 · 795 阅读 · 0 评论 -
Spark提交任务到yarn上报错:is running beyond virtual memory limits
spark版本:spark-2.4.5-bin-hadoop2.7.tgzhadoop版本:hadoop-2.7.3.tar.gz使用spark-submit将spark自带的一个example提交到yarn上执行,命令如下:spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \/opt/spark/examples/jars/spark-examples_2.11-2.4.5.jar...原创 2020-06-09 20:51:26 · 922 阅读 · 0 评论 -
MapReduce数据去重的一些方法
基于compareTo方法数据7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,500,307566,JONES,MANAGER,7839,1981/4/2,2975,,207654...原创 2019-01-29 13:32:40 · 1412 阅读 · 0 评论 -
关于MapReduce运行的常见问题
日志错误信息,如下:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http:/...原创 2019-01-28 18:17:50 · 722 阅读 · 0 评论 -
Windows和Linux环境MapReduce开发调试部署(eclipse和idea)
开发Windows+eclipse(1)创建Map/Reduce项目 打开eclipse,点击File-->New-->Other-->Map/Reduce Project,按照步骤操作就可以创建一个Map/Reduce项目,与普通项目不同的是,当创建好Map/Reduce项目后,需要的Hadoop依赖包都自动从Hadoop安装目录中添加进来。如图:...原创 2019-01-22 21:20:10 · 679 阅读 · 1 评论 -
Hadoop(MapReduce)Windows和Linux开发环境搭建(eclipse和idea)
目录 Windowseclipse软件准备hadoop安装配置eclipse配置ideaLinuxeclipse软件准备hadoop安装配置eclipse安装配置Windowseclipse软件准备(1)eclipse:eclipse-jee-oxygen-3a-win32-x86_64;(2)hadoop:hadoop-2.7....原创 2019-01-22 12:35:45 · 1525 阅读 · 2 评论 -
Hadoop源码阅读环境搭建(Windows和Linux)
就为了瞅瞅hadoop源码长啥样,坑是踩了一个又一个,最后将成功的搭建方法记录下来仅供参考。每个人的系统环境不同,出现的问题也会不一样,如果有新坑,欢迎粘贴到底部评论区,回头踩踩。Windows源码环境搭建软件下载Windows:版本8.1;eclipse:版本eclipse-inst-win64.exe,官方下载地址:eclipse-inst-win64.exe;...原创 2019-01-21 17:19:05 · 1415 阅读 · 1 评论 -
Hadoop RPC机制及实现
机制以后补上 实现hadoop版本:hadoop-2.7.3服务端定义RPC协议接口package rpc.server;import org.apache.hadoop.ipc.VersionedProtocol;/** * Created by leboop on 2019/1/18. */public interface MyInterface e...原创 2019-01-18 23:18:11 · 446 阅读 · 0 评论 -
Java API 操作HDFS权限问题
例如在HDFS上创建/input目录,Java代码如下:package HDFS;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.io.IOException;/** ...原创 2019-01-18 12:31:42 · 3692 阅读 · 4 评论 -
Eclipse+Spring MVC+HDFS文件云存储源码解析
一、文件存储策略1、同步存储基本步骤:(1)上传文件;(2)检查文件(文件大小和类型等),对符合要求的文件存储到本地文件系统(LFS);(3)存储LFS成功的文件同步到分布式文件系统(HDFS);(4)存储HDFS成功的文件,在LFS中创建新的空文件作为上传成功标记;(5)页面展示LFS存储成功的文件列表; 以上步骤是按顺序执行的,有些不足,例如:第(...原创 2018-08-24 16:16:55 · 1017 阅读 · 0 评论 -
NameNode、SecondaryNameNode和DataNode
目录集群规划集群启动 | 停止单进程启动 | 停止同一类型进程启动 | 停止dfs和yarn分开启动 | 停止启动 | 停止dfs启动 | 停止yarn一起启动 | 停止yarn和dfsNameNodeDataNodeSecondaryNameNode集群规划主机名 IP地址 节点分布 bigdata112 192.168....原创 2018-08-18 23:29:25 · 2610 阅读 · 0 评论 -
Hadoop本地模式、伪分布式和全分布式集群安装与部署
目录准备软件版本集群规划本地模式上传文件解压文件配置环境变量配置hadoop-env.sh测试伪分布式hdfs-site.xmlcore-site.xmlmapred-site.xmlyarn-site.xml格式化Namenode启动集群测试全分布式免密码登录编辑hosts文件配置环境变量bigdata112...原创 2018-08-18 20:37:33 · 2858 阅读 · 7 评论