Hadoop
文章平均质量分 57
Hadoop笔记
Agatha方艺璇
路遥马急的人间,愿成长得明媚,与优秀为伍
展开
-
HDFS 读写架构
HDFS读写原创 2023-11-01 11:04:09 · 997 阅读 · 0 评论 -
Hadoop启动缺失ResourceManager
hadoop原创 2023-10-09 17:41:29 · 1109 阅读 · 0 评论 -
HDFS命令行语句
hadoop命令行语句原创 2023-10-09 11:42:28 · 977 阅读 · 0 评论 -
大数据与Hadoop入门理论
Hadoop入门理论原创 2023-10-07 11:52:20 · 1812 阅读 · 0 评论 -
VMware CentOS7 忘记root密码如何更改
vmware linux centos7改密码原创 2023-09-26 12:53:10 · 193 阅读 · 0 评论 -
CentOS7 yum安装报错:“Could not resolve host: mirrorlist.centos.org; Unknown error“
CentOS7 yum安装出错原创 2023-09-14 13:45:20 · 1392 阅读 · 0 评论 -
hadoop启动报错:Attempting to operate on hdfs namenode as root
hadoop原创 2023-09-12 17:17:57 · 430 阅读 · 0 评论 -
安java的时候/usr/local/java/jdk1.8.0_144/bin/java: 无法执行二进制文件: 可执行文件
然后找jdk的对应版本。查看linux的版本。原创 2023-09-11 15:55:07 · 738 阅读 · 0 评论 -
CentOS7 最小化安装详细图文步骤
CentOS7一.准备步骤1.下载centos的iso2.准备好虚拟机软件VMware Workstation二.安装步骤1.打开虚拟机,创建新的虚拟机2.选择典型方式,下一步3.选择稍后安装操作系统,下一步4.选择Linux-Centos7 64位5.根据需求更改虚拟机名称和安装位置6.设置磁盘大小,大于40GB,选择拆分多个文件,下一步7.点击自定义硬件...原创 2020-05-07 12:17:12 · 10607 阅读 · 0 评论 -
MobaXterm安装与虚拟机连接
mobaxterm原创 2023-09-07 23:25:53 · 2649 阅读 · 0 评论 -
CentOS7 Hadoop3.3.0 安装与配置
hadoop安装原创 2023-09-04 18:06:42 · 3137 阅读 · 0 评论 -
CentOS7 ifconfig命令不显示IP地址或者只显示127.0.0.1
编辑ifcfg-ens33 或者叫 eno16777736,自己 ls 查一下看看是啥。进入/etc/sysconfig/network-scripts/修改文件中的ONBOOT=no 将no改为yes,保存退出。原创 2022-09-21 14:22:24 · 1577 阅读 · 0 评论 -
Centos7 bash:jps:Command not found....
jps command not found原创 2022-09-11 20:00:56 · 702 阅读 · 0 评论 -
大数据、Hadoop、Hbase介绍
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。可以是符号、文字、数字、语音、图像、视频等Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS:分布式文件系统,用于存储数据MapReduce:用于处理数据Yarn:用于资源管理•HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。•这是一个开源项目。•它是水平可伸缩的。原创 2022-09-06 15:20:50 · 2375 阅读 · 7 评论 -
ssh: Could not resolve hostname you: Temporary failure in name resolution
安装Hadoop时报错此问题:原因是配置ip时写错了1、配置主机名与IP地址的映射关系:vi /etc/hosts192.168.215.152 niit012、主机名称配置:vi /etc/sysconfig/networkniit01原创 2022-03-11 13:19:16 · 5983 阅读 · 0 评论 -
Centos7安装配置Java后不是对应的版本--切换默认JAVA版本
1.查询快捷方式路径:which java2.修改快捷方式指向的jdk路径:rm -f /usr/bin/java && ln -s /training/jdk1.8.0_144/bin/java3.配置环境变量:vi ~/.bash_profileexport JAVA_HOME=/training/jdk1.8.0_144export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$J原创 2022-03-11 13:10:26 · 1273 阅读 · 0 评论 -
MapReduce之Join多表查询实现
MapReduce之Join多表查询实现0.思路:1、在map阶段注意区分读取进来的数据所属哪张表,需做判断进行区分2、在reduce阶段注意对相同key的value进行处理,分别取出哪些是部门表和员工表的信息3、编写Job类,设置mapper及输入输出4、注意将emp.cvs和dept.csv放在同一个目录下内容如下:1.依赖<dependency><groupId>org.apache.hadoop</groupId><artifact原创 2020-07-07 16:59:51 · 389 阅读 · 0 评论 -
MapReduce之日志清洗与分析
MapReduce之日志清洗与分析本文运用的日志文件如下:需要可以留言分别为:访问者主机名、访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量等等根据要求,我们要将访问资源号以及访问流量统计出来,其他数据将清洗,观察格式发现可以进行二次切割 —> 空格以及等号1.依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common&原创 2020-07-07 17:02:15 · 1403 阅读 · 2 评论 -
MapReduce之多输入
MapReduce之多输入0.概念说明:多输入指的是数据源有多种格式的数据,比如在一个目录下有文本类型的和SequenceFile二进制格式的,针对这种场景,需要使用MapReduce来分析数据。要求:改写wordcount程序的输入数据源,实现单词统计。思路:1、有多少种数据格式,就需要编写与之对应的mapper即可2、需要使用MultipleInputs类来实现序列化文件链接:https://pan.baidu.com/s/1RWN57bVDnUPEQwu-YsfXHw提取码:n1原创 2020-07-07 17:06:38 · 267 阅读 · 0 评论 -
MapReduce之自定义分组实现
MapReduce之自定义分组实现0.概念说明:分组是一种特殊的比较器,对key做比较,并进行归并,类似于合并同类项,也类似于SQL中的分组查询要求:通过自定义分组比较器实现将emp.csv中的数据按照部门号分成三个分组,并显示出每组的人员名称,最终显示的结果格式如下所示:<10,CLARK1;KING1;MILLER1><20,CLARK2;KING2;MILLER2><30,CLARK3;KING3;MILLER3>思路:1、需要自定义分组比较器原创 2020-07-07 17:07:20 · 957 阅读 · 0 评论 -
MapReduce之自定义分区
MapReduce之自定义分区0.概括要求:按照员工的部门号分为3个分区思路:1、定义一个java类EmpPartitioner,实现Partitioner接口2、重写方法getPartition,编写分区规则3、只需写Mapper阶段,验证是否按照分区规则进行分区4、编写Job类,设置mapper及输入输出1.在pom.xml中添加hadoop依赖<dependency><groupId>org.apache.hadoop</groupId>&原创 2020-07-07 17:10:33 · 647 阅读 · 0 评论 -
MapReduce之序列化对象作为key来进行排序
MapReduce之序列化对象作为key来进行排序0.思路:1、定义一个java类,实现WritableComparable接口2、重写方法compare,实现排序规则3、只需写Mapper阶段,验证是否按照排序规则进行排序4、编写Job类,设置mapper及输入输出1.依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifa原创 2020-07-07 17:11:05 · 543 阅读 · 0 评论 -
MapReduce之Java对象排序
Java对象排序0.思路:1、定义一个java类,实现Comparable接口2、重写方法compare3、定义测试类,利用集合完成排序1.依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.3</version></dependency>&l原创 2020-07-07 17:12:53 · 257 阅读 · 0 评论 -
MapReduce之字符串排序
MapReduce之字符串排序自定义一个字符串排序规则,实现字符串与默认的字典顺序相反,改写下wordcount程序1.依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.3</version></dependency><dependency&原创 2020-07-07 17:13:53 · 640 阅读 · 0 评论 -
MapReduce之基本数据类的排序
MapReduce之基本数据类的排序0.思路因在MapReduce中基本数据类型(如int)默认是升序排序的,因此我们只需要写一个类继承IntWritable.Comparator,重写compare方法即可。1.在pom.xml中添加hadoop依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><ver原创 2020-07-07 17:14:40 · 295 阅读 · 0 评论 -
Mapreduce 利用对象序列化方式来求各部门工资+奖金统计实操
Mapreduce 各部门工资+奖金统计0.文件内容1.在pom.xml中添加hadoop依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.3</version></dependency><dependency><groupI原创 2020-07-07 17:15:31 · 672 阅读 · 0 评论 -
Mapreduce 各部门工资统计实操
Mapreduce 各部门工资统计0.本地文件内容分别是人物代号,人物名字,上级领导,上级代号,入职时间,正常工资,奖金,工作部门号1.Mapper部分package com.mr.emp;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.原创 2020-07-07 17:18:05 · 1222 阅读 · 0 评论 -
Hadoop Yarn之序列化框架Avro使用实操
YARN Avro框架一.概念1.概念Apache Avro是Hadoop下的一个子项目。它本身既是一个序列化框架,同时也实现了RPC的功能。2.特点丰富的数据结构类型;快速可压缩的二进制数据形式;存储持久数据的文件容器;提供远程过程调用RPC;简单的动态语言结合功能。3.相对于Protocol Buffers 具备如下特性:支持动态模式。Avro不需要生成代码,这有利...原创 2020-07-07 17:19:29 · 286 阅读 · 0 评论 -
Hadoop Yarn之序列化框架RPC使用实操
YARN与RPC思路:1、定义接口协议2、定义接口实现类3、定义Server端4、定义Client端1.定义接口协议-RpcProtocol.javapackage demo01;import org.apache.hadoop.ipc.VersionedProtocol;//1.定义接口协议(相当于银行办理业务的窗口),必须继承VersionedProtocol——————...原创 2020-07-07 17:20:36 · 495 阅读 · 0 评论 -
Hadoop序列化与反序列化的3种方式实操
Hadoop序列化与反序列化一.思路:1、创建实现类,实现Writable接口2、在实现类中定义成员变量(成员变量的类型都是Java的数据类型)3、设置get/set方法、无参构造方法、有参构造方法4、重写toString方法5、编写测试类1.HadoopPerson.javapackage com.hadoop.ser2;import org.apache.hadoop.i...原创 2020-07-07 17:21:09 · 1121 阅读 · 0 评论 -
JAVA序列化与反序列化实操
JAVA序列化与反序列化package com.java.ser;import java.io.Serializable;public class Person implements Serializable { //id让序列化与反序列化保持一致 public static final long serialVersionUID=123456789; priv...原创 2020-07-07 17:21:50 · 215 阅读 · 0 评论 -
Mapreduce单词计数 - JAVA API
Mapreduce单词计数=================================================================================================一. Mapreduce工作原理(简)二. Mapreduce工作原理(繁)三. 案例实操之单词计数1.Mapper部分package com.mr.wc;...原创 2020-07-07 17:22:22 · 1234 阅读 · 0 评论 -
HDFS之JAVA API增删查改
HDFS之JAVA API===============================================================================一.创建目录public static void mkdir() throws IOException { //实例化配置信息对象,简而言之Configuration类用于连接Windows中的...原创 2020-07-07 17:24:52 · 461 阅读 · 0 评论 -
Hadoop环境配置与安装笔记
Hadoop环境配置与安装==============================================================================一、Hadoop安装前的准备工作 1、安装centOS操作系统(参考发的大数据工具中的Linux文件夹下的安装文档) 2、使用下发的大数据工具中的SSH_SFTP工具进入系统中,新建两个目录 mk...原创 2020-07-07 17:25:59 · 1713 阅读 · 0 评论