![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop离线基础总结
关于我转生变成程序猿这档事
这个作者很懒,什么都没留下…
展开
-
【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例
MapReduce自定义InputFormat和OutputFormat案例自定义InputFormat 合并小文件需求无论hdfs还是mapreduce,存放小文件会占用元数据信息,白白浪费内存,实践中,又难免面临处理大量小文件的场景优化小文件的三种方式1.在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2.在业务处理之前,在HDFS上使用mapreduce程...原创 2020-02-25 01:23:01 · 215 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?
MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?用户及好友数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J...原创 2020-02-24 21:36:04 · 555 阅读 · 0 评论 -
【Hadoop离线基础总结】zookeeper的介绍以及集群环境搭建、网络编程和RPC的简单了解
ZooKeeper的介绍以及集群环境搭建ZooKeeper介绍概述ZooKeeper是一个分布式协调服务的开源框架,主要用来解决分布式集群中应用系统的一致性问题。例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper本质上是一个分布式的小文件存储系统(ZooKeeper上面的每个文件内容最好不要超过1M),提供基于类似文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效...原创 2020-02-13 12:18:53 · 291 阅读 · 0 评论 -
【Hadoop离线基础总结】Hadoop High Availability\Hadoop基础环境增强
目录简单介绍Hadoop HA 概述NameNode简单介绍Hadoop HA 概述HA(High Available) —— 高可用,是保证业务连续性的有效解决方案。一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行...原创 2020-03-26 22:10:54 · 208 阅读 · 0 评论 -
【Hadoop离线基础总结】Yarn集群的资源调度
Yarn集群的资源调度介绍概述Yarn是 Hadoop 2.x 引入的新的资源管理系统模块,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,比如内存、CPU等),它不光管理硬件资源,还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级一级管理调度:管理计算机的资源、运行job任务的生命周期二级管理调度:任务的计算模型(maptask,reducetask的代码...原创 2020-02-25 20:44:28 · 589 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce参数优化
MapReduce参数优化资源相关参数这些参数都需要在mapred-site.xml中配置mapreduce.map.memory.mb一个 MapTask 可使用的资源上限(单位:MB),默认为1024如果 MapTask 实际使用的资源量超过该值,则会被强制杀死。mapreduce.reduce.memory.mb一个 ReduceTask 可使用的资源上限(单位:MB...原创 2020-02-25 19:44:14 · 384 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator
MapReduce案例之自定义groupingComparator求取Top 1的数据需求求出每一个订单中成交金额最大的一笔交易订单id 商品id 成交金额Order_0000005 Pdt_01 222.8Order_0000005 Pdt_05 25.8Order_0000002 Pdt_03 322.8Order_0000002 Pdt_04 522.4Order...原创 2020-02-25 18:57:16 · 194 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce倒排索引建立
MapReduce倒排索引建立求某些单词在文章中出现多少次有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次hello tomhello jerryhello tomhello jerryhello jerrytom jerryhello jerryhello tomjava代码实现定义一个Mapper类package cn.it...原创 2020-02-24 22:19:46 · 249 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce增强(下)
MapReduce增强(下)MapTask运行机制详解以及MapTask的并行度MapTask运行流程第一步:读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法,对输入目录中的文件(输入目录也就是TextInputFormat的Path)进行逻辑切片得到splits。 ps. getSplits方法属于FileInputForm...原创 2020-02-23 21:37:33 · 283 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce增强(上)
MapReduce增强MapReduce的分区与reduceTask的数量概述MapReduce当中的分区:物以类聚,人以群分。相同key的数据,去往同一个reduce。ReduceTask的数量默认为一个,可以自己设定数量 job.setNumRudeceTasks(3)分区决定了我们的数据该去往哪一个ReduceTask里面去用代码实现注意:分区的案例,只能打成jar包发布...原创 2020-02-22 02:15:53 · 172 阅读 · 0 评论 -
【Hadoop离线基础总结】MapReduce入门
MapReduce入门Mapreduce思想概述MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景)。最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段:一个map阶段,负责拆分;一个是reduce阶段,负责聚合。思想模型一个文件切块(Split)对应一个ma...原创 2020-02-21 15:09:37 · 169 阅读 · 0 评论 -
【Hadoop离线基础总结】HDFS的API操作
HDFS的API操作创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载。要用CDH的jar包,要先添加一个repository:https://www.cloudera.c...原创 2020-02-20 23:53:04 · 181 阅读 · 0 评论 -
【Hadoop离线基础总结】HDFS详细介绍
HDFS详细介绍分布式文件系统设计思路概述只有一台机器时的文件查找:hello.txt /export/servers/hello.txt如果有多台机器时的文件查找:hello.txt node02 /export/servers/hello.txt 为了解决数据丢失的问题,引入副本机制,保证数据不会丢失 如果对文件进行切块存储,那么元数据信息又要继续变化 blk元数据信...原创 2020-02-19 20:57:14 · 501 阅读 · 0 评论 -
【Hadoop离线基础总结】HDFS入门介绍
HDFS入门介绍概述HDFS全称为Hadoop Distribute File System,也就是Hadoop分布式文件系统,是Hadoop的核心组件之一。分布式文件系统是横跨在多台计算机上的存储系统,主要解决的就是大数据存储的问题特性master/slave架构 HDFS集群一般是由一个 NameNode 和一定数目的 DataNode 组成。NameNode 是 HDFS...原创 2020-02-17 16:47:38 · 223 阅读 · 0 评论 -
【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建
CDH版本Hadoop 伪分布式环境搭建服务规划步骤第一步:上传压缩包并解压cd /export/softwares/tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/第二步:查看Hadoop支持的压缩方式以及本地库cd /export/servers/hadoop-2.6.0-cdh5.14.0bin/h...原创 2020-02-16 21:30:21 · 199 阅读 · 0 评论 -
【Hadoop离线基础总结】CDH版本的zookeeper环境搭建
CDH版本的zookeeper环境搭建下载下载地址http://archive.cloudera.com/cdh5/cdh/5/因为原创 2020-02-16 18:17:20 · 186 阅读 · 0 评论 -
【Hadoop离线基础总结】完全分布式环境搭建
完全分布式环境搭建服务规划适用于工作当中正式环境搭建安装步骤第一步:安装包解压停止之前的Hadoop集群的所有服务,并删除所有机器的Hadoop安装包,然后重新解压Hadoop压缩包三台机器都执行rm -rf /export/servers/hadoop-2.7.5/在第一台机器解压压缩包cd /export/softwarestar -zxvf hadoo...原创 2020-02-14 22:35:24 · 222 阅读 · 0 评论 -
【Hadoop离线基础总结】伪分布模式环境搭建
伪分布模式环境搭建服务规划适用于学习测试开发集群模式步骤第一步:停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas,重新创建文件夹停止单节点集群cd /export/servers/hadoop-2.7.5/sbin/stop-dfs.shsbin/stop-yarn.shsbin/mr-jobhistory-daem...原创 2020-02-14 18:37:02 · 159 阅读 · 0 评论 -
【Hadoop离线基础总结】Apache Hadoop的三种运行环境介绍及standAlone环境搭建
Apache Hadoop的三种运行环境介绍及standAlone环境搭建三种运行环境standAlone环境单机版的hadoop运行环境伪分布式环境主节点都在一台机器上,从节点分开到其他机器上(可以借助三台机器来实现)完全分布式环境主节点全部分散到不同机器上(NameNode Active,NameNode StandBy,ResourceManager 主节点,Resourc...原创 2020-02-13 22:16:43 · 157 阅读 · 0 评论 -
【Hadoop离线基础总结】Hadoop的架构模型
Hadoop的架构模型1.x的版本架构模型介绍架构图HDFS分布式文件存储系统(典型的主从架构)NameNode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求,处理用户的请求SecondaryNameNode:主要是辅助NameNode管理元数据信息DataNode:集群当中的从节点,主要用于存储数据什么是元数据?元数据就是描述数据的数据。简单...原创 2020-02-13 16:41:19 · 175 阅读 · 0 评论 -
【Hadoop离线基础总结】大数据集群环境准备
大数据集群环境准备三台虚拟机关闭防火墙centOS 7 service firewalld stop ->关闭防火墙 chkconfig firewalld off ->开机关闭防火墙 systemctl status firewalld.service ->查看当前防火墙状态三台虚拟机关闭selinuxvim /etc/selinux/confi...原创 2020-02-11 22:07:43 · 145 阅读 · 0 评论 -
【Hadoop离线基础总结】linux的shell编程
linux的shell编程基本了解概述Shell是一个用C语言编写的程序,通过shell用户可以访问操作系统内核服务,它类似于DOS下的command和后来的cmd.exe。Shell既是一种命令,也是一种程序设计语言Shell Scripts是一种为Shell编写的脚本程序。Shell编程一般指Shell脚本编程,不是指开发Shell自身Shell编程跟Java、PHP编程一样,...原创 2020-02-11 17:45:39 · 123 阅读 · 0 评论 -
【Hadoop离线基础总结】linux基础增强
linux基础增强查找命令grep命令 (print lines matching a pattern)概述:grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来格式: grep [option] pattern [file]使用实例: ps -ef | grep sshd ->查找指定ssh服务进程 p...原创 2020-02-10 18:29:31 · 162 阅读 · 0 评论 -
【Hadoop离线基础总结】Hive的基本操作
Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhivehive创建表成功后的存放位置由hive-site.xml配置文件中的一个属性指定<name>hive.metastore.warehouse.dir</name><value>/user/hive/war...原创 2020-02-29 21:13:06 · 220 阅读 · 0 评论 -
【Hadoop离线基础总结】Hive的安装部署以及使用方式
Hive的安装部署以及使用方式安装部署Derby版hive直接使用cd /export/softwares将上传的hive软件包解压:tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/cd /export/servers/hive-1.1.0-cdh5.14.0/启动:bin/hive缺点:多个地方安装hive后,每一个h...原创 2020-02-26 21:18:55 · 246 阅读 · 0 评论 -
【Hadoop离线基础总结】数据仓库和hive的基本概念
数据仓库和Hive的基本概念数据仓库概述数据仓库英文全称为 Data Warehouse,一般简称为DW。主要目的是构建面向分析的集成化数据环境,主要职责是对仓库中的数据进行分析,支持我们做决策。主要特征面向主题(Subject-Oriented):数据分析有一定的范围,需要选取一定的主题进行分析。集成性(Integrated):集成各个其他方面关联的数据,比如分析订单购买人...原创 2020-02-26 15:48:20 · 191 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署1.修改core-site.xml2.上传oozie的安装包并解压3.解压hadooplibs到与oozie平行的目录4.创建libext目录,并拷贝依赖包到libext目录5.拷贝mysql的驱动包到libext目录下6.上传ext-2.2.zip压缩包到libext目录下7.修改oozie-site.xml8.创建mysql数据库9.上传oozie依赖的jar包到h...原创 2020-03-16 12:20:03 · 328 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue与oozie集成
目录1.停止oozie与hue的进程2.修改oozie的配置文件3.修改hue的配置文件4.启动hue与oozie的进程5.页面访问hue1.停止oozie与hue的进程bin/oozied.sh stop2.修改oozie的配置文件(老版本的bug,新版本已经不需要了)这一步我们都不需要做了修改oozie-site.xml<property> <...原创 2020-03-16 12:18:08 · 285 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie定时任务设置
目录简介概述oozie定时任务设置1.拷贝定时任务的调度模板拷贝hello.sh脚本3.修改配置文件4.上传到hdfs对应路径5.运行定时任务简介概述在oozie当中,主要是通过Coordinator 来实现任务的定时调度,与workflow类似。Coordinator 这个模块也是主要通过xml来进行配置即可Coordinator 的调度主要有两种实现方式:第一种: 基于时间的定...原创 2020-03-16 11:49:58 · 342 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie任务串联
目录需求1.准备工作目录2.准备调度文件3.开发调度的配置文件4.上传资源文件夹到hdfs对应路径5.执行调度任务需求执行shell脚本 → 执行MR程序 → 执行hive程序1.准备工作目录cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_worksmkdir -p sereval-actions2.准备调度文件cd /e...原创 2020-03-16 11:24:41 · 201 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie调度MapReduce任务
目录1.准备MR执行的数据2.执行官方测试案例3.准备我们调度的资源4.修改配置文件5.上传调度任务到hdfs对应目录6.执行调度任务1.准备MR执行的数据MR的程序可以是自己写的,也可以是hadoop工程自带的。这里选用hadoop工程自带的MR程序来运行wordcount的示例准备以下数据上传到HDFS的/oozie/input路径下去hdfs dfs -mkdir -p /oo...原创 2020-03-16 11:03:00 · 232 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie调度hive
目录1.拷贝hive的案例模板2.编辑hive模板3.上传工作文件到hdfs4.执行oozie的调度5.查看调度结果1.拷贝hive的案例模板cd /export/servers/oozie-4.1.0-cdh5.14.0cp -ra examples/apps/hive2/ oozie_works/2.编辑hive模板这里使用的是hiveserver2来进行提交任务,需要注...原创 2020-03-16 02:08:25 · 265 阅读 · 0 评论 -
【Hadoop离线基础总结】oozie调度shell脚本
目录1.解压官方提供的调度案例2.创建工作目录3.拷贝任务模板到工作目录当中去4.随意准备一个shell脚本5.修改模板下的配置文件6.上传调度任务到hdfs上面去7.执行调度任务1.解压官方提供的调度案例cd /export/servers/oozie-4.1.0-cdh5.14.0tar -zxf oozie-examples.tar.gz2.创建工作目录在任意地方创建一...原创 2020-03-16 01:47:09 · 212 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程hue与其他框架的集成Hue与Hadoop集成Hue与Hive集成Hue与Impala集成Hue与Mysql集成Hue的简单介绍概述CDH Hue官方帮助文档:http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0/us...原创 2020-03-14 23:36:21 · 364 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue与Mysql集成
Hue与Mysql集成1.修改hue.ini配置文件这里要去掉#,打开mysql注释,大概在1547行[[[mysql]]]nice_name="My SQL DB"engine=mysqlhost=node03.hadoop.comport=3306user=rootpassword=1234562.启动hue进程,查看Hive是否与Mysql集成成功cd /expor...原创 2020-03-14 23:32:39 · 188 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue与Impala集成
Hue与Impala集成1.修改hue.ini配置文件[impala]server_host=node03server_port=21050impala_conf_dir=/etc/impala/conf2.启动hue进程,查看Hive是否与Hue集成成功cd /export/servers/hue-3.9.0-cdh5.14.0/build/env/bin/superviso...原创 2020-03-14 23:29:29 · 374 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue与Hive集成
目录1.更改hue的配置hue.ini2.启动hive的metastore以及hiveserver2服务3.启动hue进程,查看Hive是否与Hue集成成功1.更改hue的配置hue.inicd /export/servers/hue-3.9.0-cdh5.14.0/desktop/confvim hue.ini 不推荐vim编辑模式[beeswax]hive_server_hos...原创 2020-03-14 23:27:27 · 273 阅读 · 0 评论 -
【Hadoop离线基础总结】Hue与Hadoop集成
目录1.更改所有hadoop节点的core-site.xml配置2.更改所有hadoop节点的hdfs-site.xml3.重启hadoop集群4.停止hue的服务,并继续配置hue.ini启动hue进程,查看hadoop是否与集成成功1.更改所有hadoop节点的core-site.xml配置cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/h...原创 2020-03-14 22:58:28 · 326 阅读 · 0 评论 -
【Hadoop离线基础总结】impala简单介绍及安装部署
目录impala的简单介绍概述优点缺点impala和Hive的关系impala如何和CDH一起工作impala的架构及查询计划impala/hive/spark 对比impala的安装部署安装环境准备下载impala的所有依赖包挂载磁盘上传压缩包并解压制作本地yum源开始安装impala所有节点配置impalaimpala的简单介绍概述有两个关于impala介绍的网址:https:/...原创 2020-03-14 14:10:14 · 738 阅读 · 0 评论 -
【Hadoop离线基础总结】Mac版VMware Fusion虚拟机磁盘挂载
步骤概览1.打开所要挂载磁盘的虚拟机的设置(此时必须关机)2.打开硬盘设置3.添加设备4.选择新硬盘5.设置如下图6.将虚拟机开机,输入 df-lh ,查看当前虚拟机磁盘7.输入 fdisk -l 查看所挂载的磁盘8.输入 fdisk /dev/sdb,开始格式化磁盘,并创建分区、写入分区9.输入fdisk -l 再次查看系统挂载磁盘详情,可以看到/dev/sdb成功挂载10.输入 mkfs -t...原创 2020-03-14 10:34:10 · 563 阅读 · 0 评论