Hadoop
文章平均质量分 55
Hadoop相关博文
@阿证1024
这个世界上最好的语言就是你的实力。
展开
-
大数据Hadoop之MR Combiner案例实操
1.需求统计过程中对每一个MapTask的输出进行局部汇总,以减小网络传输量即采用Combiner功能。(1)数据输入atguigu atguiguss sscls clsjiaobanzhangxuehadoop(2)期望输出数据期望:Combine输入数据多,输出时经过合并,输出数据降低。2.需求分析(我们采用方案一)3.案例实操Combinerpackage com.mapreduce.wordcount;import java.io.IOException;原创 2020-05-22 22:07:59 · 392 阅读 · 0 评论 -
花了半天时间标准化的又搭了一遍Hadoop三模式,记录下心得
1. 本地模式总结无论搭建那种模式,首先必备的是准备虚拟机,所以在搭建本地模式之前肯定要先准备一台机器就行,对于准备虚拟机有这几步:(1) 修改主机名: 修改文件在 "/etc/sysconfig/network" 目录下,加入对应的内容即可,注意主机名后面别不小心输入了一个空格,这是错误的。然后就是CentOS7和CentOS6的区别了,很多学生现在都是在用7,但是学的视频里面很多老师是用的6操作的。对于二者,区别是在7中你修改完主机名之后,你要配置主机IP映射关系(在/...原创 2020-05-31 20:28:39 · 162 阅读 · 0 评论 -
运行jar包报错:java.lang.NoClassDefFoundError org/apache/hadoop/hbase/HBaseConfiguration
之前都是在Windows客户端操作HBase,今天把程序打成jar包在MR上跑的时候,报了错误,详细信息如下:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at hadoop02.exer.hbase010301.HBaseImportDemo.<init>(HBaseImportDemo.java:26)原创 2020-06-13 16:25:26 · 3897 阅读 · 1 评论 -
大数据Hadoop之MR数据去重
1、数据去重"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下所示:file1:2012-3-1 a2012-3-2 b2012-3-3 c...原创 2020-04-08 15:21:15 · 1179 阅读 · 0 评论 -
分布式与并行计算课程设计(附流程分析图)
课题名称:倒排序索引的实现一、项目倒排序索引的实现。二、要求数据源:a.txt,b.txt,c.txt请将数据源中的文本按照倒排序的规则统计每个单词在不同文本中出现的次数。最终要求得到类似以下的结果:hello a.txt8,b.txt3,c.txt1tom a.txt5,b.txt2,c.txt1…………………….流程分析图:设置两个Job来实现要求,第一个Job主要是统计出 “单词—所在文件名” 的数量,第二个Job依据Job1统计出来的结果的基础上再进行统计,进而得出倒排索引的结果原创 2021-05-31 13:01:47 · 2450 阅读 · 0 评论 -
大数据Hadoop之Hadoop序列化案例实操
1.需求:统计每一个手机号耗费的总上行流量、下行流量、总流量(1)输入数据:1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.100.2 ww原创 2020-05-17 13:30:45 · 501 阅读 · 0 评论 -
大数据Hadoop之MR自定义排序 区内排序案例实操
前言: 当前排序案例基于下面这个全排序案例的输出数据。全排序案例:https://blog.csdn.net/qq_43437122/article/details/1062903001.需求要求每个省份手机号输出的文件中按照总流量内部排序。2.需求分析基于前一个需求,增加自定义分区类,分区按照省份手机号设置3. 案例实操:(1)增加自定义分区类package com.mapreduce.fcwritablecomparable;import org.apache.hadoop.io.原创 2020-05-22 21:10:17 · 406 阅读 · 0 评论 -
大数据Hadoop之MR自定义排序 全排序案例实操
前言: MapReduce默认会对key进行字典序排列,但是在一些情况下我们需要按照某种方式进行排序,所以要自定义排序。1.需求根据案例FlowCountBean产生的结果再次对总流量进行排序。FlowCountBean的案例:https://blog.csdn.net/qq_43437122/article/details/106173182(1)输入数据原始数据 ----------------------第一次处理后的数据(2)期望输出数据,就是总流量较大的放到前面1350946872原创 2020-05-22 20:39:43 · 686 阅读 · 0 评论 -
java.net.BindException: 地址已在使用 (Bind failed)(HadoopDataNode无法启动)
今天启动自己搭建的伪分布式,发现启动后无datanode,查看日志信息后发现:很明显端口被占用了,所以执下面的命令,查看进程:netstat -alnp | grep 50010找到占用的线程,然后kill掉:kill -9 2084注意:你查看进程的时候要在root用户下查看,不然可能显示不出来PID。如果NameNode也是端口被占用了,也可以按照此方法解决。...原创 2020-03-16 12:39:47 · 1713 阅读 · 0 评论 -
大数据Hadoop之MR ETL数据清洗、计数器案例实操
计数器的概念:数据清洗(ETL):在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。案例实操(就一个简单的例子):1.需求去除日志中字段长度小于等于11的日志。(1)输入数据...原创 2020-05-28 14:49:07 · 1076 阅读 · 4 评论 -
大数据Hadoop之NLineInputFormat使用案例
1.需求对每个单词进行个数统计,要求根据每个输入文件的行数来规定输出多少个切片。此案例要求每三行放入一个切片中。(1)输入数据banzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banz原创 2020-05-18 19:06:52 · 243 阅读 · 2 评论 -
大数据Hadoop之MR Partition分区案例
前言: 还记得之前统计上行流量,下行流量的案例吗?现在在此基础上在增加要求,如何解决呢?FlowCountBean案例:https://blog.csdn.net/qq_43437122/article/details/1061731821.需求将统计结果按照手机归属地不同省份输出到不同文件中(分区)。(1)输入数据1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 2002 13846544121 192.196.100.2 264原创 2020-05-22 11:19:57 · 401 阅读 · 0 评论 -
大数据Hadoop之KeyValueTextInputFormat使用案例
1.需求统计输入文件中每一行的第一个单词相同的行数。(1)输入数据banzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhang(2)期望结果数据banzhang 2xihuan 22.需求分析3. 代码实现Mapper:package com.mapreduce.kvsplit;import org.apache.hadoop.io.IntWritable;import org.ap原创 2020-05-18 18:17:16 · 308 阅读 · 0 评论 -
Linux下载安装Sqoop(一台机器,带详细图解,步骤简单)
安装前一定要阅读:这篇文章我只介绍了如何安装sqoop,对于下面利用sqoop将mysql里面的数据复制到HDFS,涉及到mysql的安装和远程连接问题,请自行百度,或者参考我的这篇博客。https://blog.csdn.net/qq_43437122/article/details/1035518781.上传文件需要上传sqoop的安装包和连接mysql的驱动:本人比较良心,为了帮助...原创 2020-03-16 15:28:28 · 1520 阅读 · 1 评论 -
jar包冲突:Found binding in [jar:file:/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar
昨天因为要在集群上跑HBase程序的jar包,所以配置了HADOOP_CLASSPATH环境变量,但是今天启动HDFS时就开始报错,错误信息如下:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/hadoop-2.8.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLogger原创 2020-06-14 13:27:28 · 15184 阅读 · 14 评论 -
分布式与并行计算大作业
一、项目汽车销售数据分析二、数据概况:本数据为上牌汽车的销售数据,分为乘用车辆和商用车辆。数据包含销售相关数据与汽车具体参数。数据项包括:时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。三、具体要求:1.统计山西省2013年每个月的汽车销售数量的比例,结果例如:2.统计不同品牌的车在每个月的销售量分布,结果例如:四、代码实现1. 统计山西省2013年每个月原创 2021-06-26 11:05:15 · 1939 阅读 · 2 评论 -
大数据Hadoop之MR TopN案例
1.需求对输入数据进行加工,输出流量使用量在前10的用户信息(1)输入数据13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 2923213590439668 1116 954 207013630577991 6960 690 765013682846555 1938 2910 484813729199489 240 0 24013736原创 2020-06-07 12:56:11 · 868 阅读 · 1 评论 -
Sqoop从Hive导出数据到MySQL报错 :Error parsing arguments for export:
错误信息:20/06/14 14:46:04 INFO sqoop.Sqoop: Running Sqoop version: 1.4.620/06/14 14:46:04 ERROR tool.BaseSqoopTool: Error parsing arguments for export:20/06/14 14:46:04 ERROR tool.BaseSqoopTool: Unrecognized argument: --connetc20/06/14 14:46:04 ERROR tool原创 2020-06-14 14:52:03 · 4370 阅读 · 1 评论 -
大数据Hadoop之终于弄懂了MapReduce中reduce阶段Iterable迭代出的是同一个对象
1. 前言:之前在看一个老师写流量统计案例时,他刚开始的Mapper代码是这样写的:然后他说这样每次都要造对象,所以他改成了这样:但是这样我就不理解了,因为你每次获取一行数据都要将其对应的上行流量、下行流量放到一个对象中,又因为每一行的数据不同,所以你每次都应该new 一个对象,用来存放数据。如果改成第二种方式,在对一个文件每一行数据读取时,你始终用的就是同一个对象,你每次set值都是对前一个值得覆盖,那么最终不就得不到正确答案了吗?结果证明,老师那样写的没错。2. 各种猜想之后,开始自行DeB原创 2020-05-18 16:25:59 · 1155 阅读 · 3 评论 -
CentOS7 下安装伪分布式Hadoop(详细图解)
1.创建hadoop-vm用户(用户名可以自及定义)1.1 输入useradd -m az 创建用户1.2 输入passwd az(此处为你设置的用户名) 更改密码2.设置用户为管理员2.1 更改/etc/sudoers文件权限chmod 744 /etc/sudoers 2.2 编辑 /etc/sudoers 文件,加入以下内容:注意:虽然我设置用户名时输入的大写的AZ,但其实...原创 2020-03-08 15:10:08 · 3502 阅读 · 0 评论 -
大数据Hadoop之MR GroupingComparator辅助排序案例实操
1.需求有如下订单数据现在需要求出每一个订单中最贵的商品。(1)输入数据0000001 Pdt_01 222.80000002 Pdt_05 722.40000001 Pdt_02 33.80000003 Pdt_06 232.80000003 Pdt_02 33.80000002 Pdt_03 522.80000002 Pdt_04 122.4(2)期望输出数据1 222.82 722.43 232.82.需求分析(1)利用“订单id和成交金额”作为key,可以将Ma原创 2020-05-24 18:20:10 · 425 阅读 · 2 评论 -
解决错误:/opt/module/hadoop-2.7.2/sbin/yarn-daemon.sh:行125: /tmp/yarn-hadoop-resourcemanager.pid: 权限不够
今天启动集群的YARN时,报了一个这样的错误。它最先报的是这样一个错误:log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: (权限不够)然后我重新format了以下就转为了下面这个错误:/opt/module/hadoop-2.7.2/sbin/yarn-daemon.sh:行125: /tmp/yarn-hadoop-resourcemanager.pid: 权限不够下面是我的尝试的各种方法:1.原创 2020-06-01 16:40:07 · 5858 阅读 · 4 评论 -
大数据Hadoo之MR Map Join案例实操
1.使用场景Map Join适用于一张表十分小、一张表很大的场景。2.优点思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办?在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。3.具体办法:采用DistributedCache(1)在Mapper的setup阶段,将文件读取到缓存集合中。(2)在驱动函数中加载缓存。// 缓存普通文件到Task运行节点。job.addCacheFile(new URI(“file:原创 2020-05-28 14:08:09 · 326 阅读 · 0 评论 -
windows10下操作HDFS报错:Failed to locate the winutils binary in the hadoop binary path(防坑篇)
今天在Windows上面操作Linux下的HDFS,结果一直报这个错误,搞了好长时间才解决,所以记录一下,让他人和自己少入坑。错误详情:ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\...原创 2020-03-22 12:55:46 · 610 阅读 · 1 评论 -
Hadoop学习第一天之伪分布式(总结)
建议新手可以看看我写的这些。 作为大数据时代的数据处理平台,大数据学生学习Hadoop已是确切的要求,所以今天我学习了Hadoop的伪分布式。对于伪分布式的概念,百科上也没有给出详细的说法,当然我才接触也不太懂,但是我就觉得伪分布式就是集群的缩小版,它只在一台主机上实现分布式,是学习集群的基础。因为学习任何东西都是由浅到深的,所以Hadoop的学习也是一样的。我们学习Had...原创 2020-02-03 11:11:12 · 1276 阅读 · 0 评论 -
winuntils-master(windows上远程操作hadoop配置)各个版本下载
下载链接: https://pan.baidu.com/s/1El55vYJbF-UeABsg5hYgbQ提取码:5c7a原创 2020-03-22 12:41:13 · 742 阅读 · 0 评论 -
HDFS 的 Java API 增删改查
HDFS 设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量的文件。HDFS 将这些文件分割之后,存储在不同的 DataNode 上,HDFS 提供了通过Java API 对 HDFS 里面的文件进行操作的功能,数据块在 DataNode 上的存放位置,对于开发者来说是透明的。使用 Java API 可以完成对 HDFS 的各种操作,如新建文件、删除文件、读取文件内容等。下面将介...原创 2020-03-26 12:30:17 · 419 阅读 · 0 评论