![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
缘不易
一切的失败,都是你不够努力,不够优秀!!
诚接 计算机毕业设计项目
展开
-
/bin/bash^M: 坏的解释器: 没有那个文件或目录 的解决方法
/bin/bash^M: 坏的解释器: 没有那个文件或目录 的解决方法在linux下编写shell脚本,赋予权限即可运行。如果是在windows下编写,比如在idea编辑器中编写,编写完毕后传到服务器上执行,有时候会出现坏的解释器:原因:由于windows系统下换行符为 \r\n,linux下换行符为 \n,所以导致在windows下编写的文件会比linux下多回车符号 \r。解决方法:只需要去掉多余的 \r 回车符 即可。操作办法可以用sed命令进行全局替换sed 's/\r//' -i 文原创 2022-05-16 14:09:02 · 3183 阅读 · 1 评论 -
Hadoop MR替换Tez
下载Tez:http://tez.apache.org/上下到Linux系统指定的目录,并解压到相应的目录下上传到HDFS 指定的目录上:解压:拷贝 tez-default-template.xml 到 hadoop 的etc/hadoop 下,并改名为tez-site.xml配置如下信息: <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/x原创 2020-11-23 19:07:05 · 422 阅读 · 0 评论 -
idea 创建spark项目并运行
前置条件 idea需要安装Scala插件创建maven项目导入项目依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.13</artifactId> <version>3.2.1</version> </depe原创 2022-04-15 11:00:52 · 785 阅读 · 0 评论 -
数据切片与MapTask的并行度决定机制
文件块大小(默认128M)与切片大小一致时工作效率最高。一个Job的mapper阶段并度有Drive提交的job的切片数量决定每一个切片对应一个新的MapTask默认情况下块大小等于切片大小切片时,每个文件单独切片,不考虑数据整体大小(操作目录文件夹下的所有文件单独切片)...原创 2022-03-24 13:17:30 · 318 阅读 · 0 评论 -
hadoop异常: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exit
出现原因:集群有要操作的目录或者文件但是本地没有吧路径写全造成的。其次是集群获取分布式文件系统没有做配置,默认是本地(你电脑下的路径)所以分布式系统找不到路径。设置如下图:以WordCount 为例最终结果如下...原创 2022-03-24 11:44:44 · 4485 阅读 · 2 评论 -
hadoop fs -put test.txt /data/ 上传文件时报异常
查看:hadoop dfsadmin -report发现磁盘使用都为 0报错原因: 应该是多次格式化,导致集群的DataNode 的元数据信息错乱解决办法:删除hadoop3台集群中的data,logs 文件夹重新格式化集群启动集群输入 hadoop dfsadmin -reporthadoop fs -put test.txt /data/再次重新使用上传命令即可成功上传文件...原创 2022-03-23 12:08:43 · 2390 阅读 · 1 评论 -
Hadoop集群宕机 一般的解决办法
杀死hadoop相关的所有进程删除hadoo集群中的data,logs 文件夹重新格式化集群原创 2022-03-23 10:57:48 · 1353 阅读 · 0 评论 -
Hadoop 常见端口号和常见的配置文件
Hadoop 常见端口号hadoop2.xhadoop3.x50070,8088,1988,8020,9000,9820,9870,8088,1988常见的配置文件hadoop3.xcore-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workershadoop2.xcore-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves原创 2022-03-23 10:35:27 · 554 阅读 · 0 评论 -
ssh远程发送jps命令不生效
直接运行jps命令正常,但是通过ssh远程登录后,执行shell脚本不能进行jps。原因是有可能你的jps不在PATH中,即便配置java环境变量也不一定有用,我就是如此。== 要注意bash在交互模式和非交互模式读取的配置文件是不同的,为了解决这种差异,应该尽可能在非交互式执行的脚本中写绝对路径 ==比如:/usr/local/software/jdk-11.0.14/bin/jps#!/bin/bashfor host in hadoop2 hadoop3 hadoop4do echo原创 2022-03-21 14:50:03 · 1684 阅读 · 0 评论 -
win11安装hadoop3.3.2(当前最新版本)
前提Java已经安装安装准备下载链接:链接解压将hadoop 到自己想要解压的路径下(这我解压到D盘下)修改配置文件进入etc/hadoop/下修改 core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xmlcore-site.xml<configuration> <property> <name>fs.default.name</name> <valu原创 2022-03-18 18:41:48 · 6097 阅读 · 7 评论 -
Hadoop退出安全模式
Hadoop退出安全模式 hadoop为了防止数据丢失,启动了“安全模式”的设置,每次启动hadoop后一段时间内集群处于安全模式,该模式下集群会检查各节点文件块的记录,如果数据块中满足replication设置值的数据块的数量在总数据块数量中所占比例没有超过一定值(称为安全模式阀值,默认为0.999f),那么集群将持续处于安全模式,在该模式下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或原创 2020-11-25 23:33:44 · 5592 阅读 · 0 评论 -
Hadoop之自定义输入InputFormat
3.程序实现(1)自定义InputFromatpackage com.hadoop.mapreduce.inputformat;import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputS.原创 2020-11-02 22:30:03 · 227 阅读 · 0 评论 -
简单ELT ( 内含系统计算器)
项目依赖:<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency> <dependency> <gr原创 2020-11-02 22:25:04 · 674 阅读 · 0 评论 -
hadoop之简单倒排索引(job链)
输入数据:期望数据数据格式:实现思路:第一部分:Map阶段获数据来源取文件名在map方法内将文件名称与切分得到的每个单词拼接作为key,value恒等于1,循环写出Reduce阶段就收到的数据格式为:单词+“-”+文件名 1单词+“-”+文件名 1单词+“-”+文件名 1单词2+“-”+文件名 1单词2+“-”+文件名 1单词2+“-”+文件名 1把相同key 的做数据统计,获得同一文件单词出现此次数将文件 以:单词+"-"+文件名原创 2020-11-01 12:41:57 · 194 阅读 · 0 评论 -
hadoop之简单ETL
输入数据:194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"163.177.71.12 - - [18/Sep/2013:06:49:33原创 2020-11-01 12:11:10 · 370 阅读 · 1 评论 -
Hadoop之MapReduce FlowBean 电话流量全排序
文件数据:1 13736230513 192.196.100.1 www.hadoop.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.100.2 www.hadoop.com 1527 2106 2006 18418841312 192.原创 2020-10-31 23:49:27 · 695 阅读 · 0 评论 -
Hadoop 自定义OutPutFormat 输出
自定义outputformat 案例练习代码实现思路(作用在Reduce之后):根据需求,我们要将一个输入文件中的包含 hadoop 单词的数据放在一个输出文件中,不包含hadoop单词的数据放在另外一个输出文件中首先需要在mapper中,将读取的kv不做任何处理,直接写出然后自定义outputformat的实现类,在recordwriter方法中返回一个我们自定义的recordwriter类,这个类需要继承recordwriter在自定义的recordwriter中,先定义两个输出流 FSD原创 2020-10-26 13:38:12 · 399 阅读 · 0 评论 -
使用MapReduce 从HDFS中导入数据到Hbase中
准备工作:hdfs中创建test目录上传文件info.txt 到hdfs中编写内容:10001 张三 9010002 李四 6010003 王二 7810005 李欣 891 导入相关依赖: <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</versio原创 2020-06-13 23:48:15 · 711 阅读 · 0 评论 -
Hadoop之电影评分全排序
测试数据中国机长 72机械师2 83奇异博士 87流浪地球 79复仇者联盟4:终局之战 94惊奇队长 68蜘蛛侠:英雄远征 80长城 56夺路而逃 69神奇动物在哪里 57驴得水 59我不是潘金莲 55速度与激情:特别行动 77哪吒之魔童降世 96捉迷藏 78上海堡垒 9叶问4 75勇士之门 35罗曼蒂克消亡史 67阿丽塔:战斗天使 89自定义Bean...原创 2020-05-06 16:34:35 · 1049 阅读 · 0 评论 -
Hadoop多文件的自定义分区
测试数据file1:2 3 4 12 1212 121 23 23245 545 7667 323 5454 7676 2323655 12 1212 12123 232 45 545 7667 323 54547676 2323 65543333 334 34 22222 2222 33333121 232 4 545 65 87 454 234121 232 4 545 65...原创 2020-05-06 16:30:38 · 174 阅读 · 0 评论 -
Hadoop之Partitioner区内排序
示例:将统计结果按照手机号,以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中,最终按照总流量内部排序。待排数1863157985066 120.196.100.82 2481 24681 2001363157995033 120.197.40.4 264 0 2001373157993055 120.196.100.99 132 1512 200...原创 2020-05-06 16:25:46 · 263 阅读 · 0 评论 -
Hadoop之 KeyValueInputFormat
数据lisi 数学 78lisi 语文 89lisi 英语 89zhangsan 数学 56zhangsan 语文 87zhangsan 英语 56自定义Mapperpackage com.test;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apac...原创 2020-05-06 16:20:43 · 227 阅读 · 0 评论 -
Hadoop之自定义分区(Partitioner)
需求将统计结果按照手机号,以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中。(分区)输入数据1863157985066 120.196.100.82 2481 24681 2001363157995033 120.197.40.4 264 0 2001373157993055 120.196.100.99 132 1512 200139315...原创 2020-05-06 16:16:10 · 657 阅读 · 0 评论 -
java操作hdfs
引入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.9.2</version> </dependency&g...原创 2020-05-04 14:29:29 · 193 阅读 · 0 评论 -
MapReduce统计单词个数
测试数据q w e t y u s hy d g h s g s e w f qw er a fs ds asda ds sd df gf h g sds we sds sa fd sd sd as df f a wwe ew d fg s gf d h x f e f d sd r sd t dssd df f g x w t yu d c s t d d eq w e t y u s...原创 2020-04-27 10:52:03 · 637 阅读 · 0 评论 -
MapReduce查找隐藏好友
测试数据tom rosetom jimtom smithtom lucyrose tomrose lucyrose smithjim tomjim lucysmith jimsmith tomsmith rose1自定义第一个Mapper:public class UserMapper extends Mapper<LongWritable, Text,Tex...原创 2020-04-27 10:40:23 · 363 阅读 · 0 评论