自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

翁老师的教学团队

没有教学质量啥也不是,专注校企合作,专业共建

  • 博客(28)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hive元数据配置到MySql

Hive元数据配置到MySql1 驱动拷贝1)在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包[root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz2)拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-

2021-04-28 10:49:18 615 2

原创 centos MySql 安装

MySql 安装安装包准备1.查看mysql 是否安装,如果安装了,卸载mysql(1)查看rpm -qa|grep mysql(2)卸载 sudo rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_642.解压mysql-libs.zip 文件到当前目录[dev1@hadoop102 software]# unzip mysql-libs.zip[dev1@hadoop102 software]# lsmysql-libs.zipmysql

2021-04-28 10:48:56 310

原创 将本地文件导入 Hive 案例

将本地文件导入 Hive 案例需求将本地/opt/module/data/student.txt 这个目录下的数据导入到 hive 的student(id int, name string)表中。1 数据准备在/opt/module/data 这个目录下准备数据(1)在/opt/module/目录下创建 datamkdir -p /opt/module/data(2)在/opt/module/datas/目录下创建 student.txt 文件并添加数据[dev1@hadoop102

2021-04-28 10:48:10 625

原创 Hive架构原理

Hive 和数据库比较1由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language), 因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本节将从多个方面来阐述Hive 和数据库的差异。数据库可以用在Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解Hive 的特性Hive 和数据库比较21查询语言由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 H

2021-04-28 10:17:59 339

原创 Hive 入门

Hive概述什么是 Hivehive 英[haɪv] 美[haɪv]n. 蜂房; 蜂箱; 一箱蜜蜂; 蜂群; 忙碌的场所; 繁忙的地方;Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成MapReduce 程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在YARN上应用场景 :由 Facebook 开源用于解决海量结构化日志

2021-04-27 10:55:08 552

原创 监听服务器节点动态上下线案例

案例:监听服务器节点动态上下线案例1.需求某分布式系统中,主节点可以有多台,可以动态上下线,任意一台客户端都能实时感知到主节点服务器的上下线。2.需求分析3.具体实现(0)先在集群上创建/servers节点create /servers "servers"Created /servers(1)客户端监听代码编写package com.dev1.zkcase;public class DistributeClient { private static String con

2021-04-22 10:44:59 404

原创 Zookeeper内部原理与面试题

监听器监听重要数据或者对象的变化(添加,删除,修改)》1:定义监听器public interface MyListener { public void process();}》2:在类中调用监听器//1:当前price是私有的,可以使用set方法//2:定义一个监听器,监听price,如果价格发生变化则执行监听器的方法//2.1定义了一个接口,接口内有一个processpublic class MyData { private String pname; p

2021-04-22 10:43:34 286

原创 Zookeeper实战(开发重点)Java API

API应用IDEA环境搭建1.创建一个Maven工程2.添加pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </d

2021-04-21 11:48:31 335

原创 Zookeeper实战(开发重点)

选举机制(面试重点)1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。

2021-04-19 11:46:40 542

原创 Zookeeper安装

本地模式安装部署使用dev1账号操作1.安装前准备(1)安装Jdk(2)拷贝Zookeeper安装包到Linux系统下(3)解压到指定目录[dev1@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/2.配置修改(1)将/opt/module/zookeeper-3.4.10/conf这个路径下的zoo_sample.cfg修改为zoo.cfg;[dev1@hadoop102 conf]$ mv z

2021-04-19 11:43:48 917 2

原创 Zookeeper入门

学习路线一 Zookeeper概述二 Zookeeper本地模式/分布式安装三 Zookeeper内部原理四 Zookeeper实战Zookeeper入门概述Zookeeper是什么?zoo keeper英[zuː ˈkiːpə(r)] 美[zuː ˈkiːpər]网络 动物园饲养员; 动物园管理员; 动物管理员; 动物园管理人; 动物园的饲养员;Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper=文件系统+通知机制Zoo

2021-04-19 11:42:40 410

原创 推测执行算法原理

任务的推测执行speculative 英[ˈspekjələtɪv] 美[ˈspekjələtɪv]adj推测的; 猜测的; 推断的; 揣摩的; 忖度的; 试探的; 投机性的; 风险性的》》1 什么是推测执行机制发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。》》2 什么是时侯执行备份Task一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等,某些任务可能运行非常慢。作业完成时间取决于最慢的

2021-04-15 10:49:03 497

原创 资源调度器

资源调度器调度器的分类目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。具体设置详见:yarn-default.xml文件<property> <description>The class to use as the resource scheduler.</description> <name&

2021-04-15 10:47:59 299

原创 Yarn的概述

Yarn概述》》1:Yarn是什么?Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。》》2:Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成》》3:yarn的工作机制capacity 英[kəˈpæsəti] 美[kəˈpæsəti]n. 容量; 容积; 容纳能力;

2021-04-15 10:30:32 345

原创 计数器应用

计数器应用Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和已产生的输出数据量。API(1)采用枚举的方式统计计数enum MyCounter{MALFORORMED,NORMAL} //对枚举定义的自定义计数器加1 context.getCounter(MyCounter.MALFORORMED).increment(1);(2)采用计数器组、计数器名称的方式统计context.get

2021-04-14 10:51:28 190

原创 数据清洗

数据清洗》》1:什么是ETLETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Red

2021-04-14 10:50:37 866 1

原创 GroupingComparator分组排序

GroupingComparator分组排序》》什么是分组排序?对Reduce阶段的数据根据某一个或几个字段进行分组。》》分组排序的步骤是?(1)自定义类继承WritableComparator(2)重写compare()方法@Overridepublic int compare(WritableComparable a, WritableComparable b) { // 比较的业务逻辑 return result;}(3)创建一个构造将比较对象的类传给

2021-04-12 08:04:22 177

原创 同学们看了就不逃课了【百试百灵】

原文链接:https://tieba.baidu.com/p/7294060874自己镇楼,这吧里只有剩男剩女却很少,本宫告诉你,其实剩男真的没什么可说的,一个男的找不到老婆,99%都是因为穷,穷就是穷,无法美颜。普通男去相亲几斤几两自己清楚的很,根本自信不起来,见光死屡战屡凉也是很正常的。而男人穷,除了身体有残疾的,基本都是因为懒,吧里有些男的说什么一个月一万多超越99%?我一个月3万多都不敢骄傲,除非你在十八线小县城,否则你不仅穷而且彪。另外攻击我的可以省省了,我一女生都敢去外地打拼,而吧里的国

2021-04-09 11:25:39 332 7

原创 Shuffle之3 合并

Combiner合并概述》》1:Combiner是什么?combiner 英[ˈkɒmbaɪnə] 美[ˈkɑmbaɪnər] n. 组合器,合成仪;combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducer》》2:Combiner有什么作用?是为了解决MR的两个性能瓶颈Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输

2021-04-09 11:18:49 379

原创 Shuffle之2排序

排序概述》1:什么是排序?将无序记录调整成有序的排序是MapReduce框架中最重要的操作之一。》2:Hadoop排序的特点1: Map Task和Reduce Task均会对数据(按照key)进行排序。2:默认排序是按照字典顺序,且实现该排序的方法是快速排序》3:什么时候对数据进行排序?对于Map Task,它会将处理的结果暂时放到一个缓冲区中,当缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次排序,并将这些有序数据写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行一次合并,以

2021-04-08 15:16:41 536

原创 Shuffle之1分区Partition

ShuffleShuffle》1:Shuffle是什么?shuffle 英[ˈʃʌfl] 美[ˈʃʌfl] 洗(牌)将所有元素随机排序在MR中,Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle》2:Shuffle过程详解[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2gAqV7A6-1617850222701)(index_files/8de4a9ed-18bf-4437-956a-e6bd3c991fb7.jpg)][外链图片转

2021-04-08 10:56:03 480

原创 MapReduce详细工作流程

Map阶段Reduce阶段

2021-04-07 16:08:12 294

原创 MapReduce框架原理submit方法

waitForCompletion() submit(); //1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); // 2 提交job sub

2021-04-07 15:26:33 235 1

原创 MapReduce框架原理面试题切片

切片与MapTask并行度决定机制》1:并行度是什么?在计算机体系结构中,并行度是指指令或数据并行执行的最大数目。在指令流水中,同时执行多条指令称为指令并行》2:为什么要提高并行度可以最大限度地利用计算资源或存储资源。MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。注意:并行度不是越大越好1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪

2021-04-07 14:55:11 1351 2

原创 NLineInputFormat案例分析与实现

NLineInputFormat》1 什么是NLineInputFormat用于读hdfs中的文本文件,每次入读固定行数本质上代表每个map进程处理的InputSplit不再按Block块去划分,而是按NlineInputFormat指定的行数N来划分。即输入文件的总行数/N=切片数,如果不整除,切片数=商+1键是文件中行的字节偏移量,值是行本身。N 是每个 Mapper 收到的输入行数N 设置为1(默认值)时,每个 Mapper 正好收到一行输入。 mapreduce.input.line

2021-04-06 11:30:51 385 1

原创 KeyValueTextInputFormat案例分析与实现

KeyValueTextInputFormat》 KeyValueTextInputFormat是什么?处理每一行均为一条记录, 被分隔符(缺省是tab(\t))分割为key(Text),value(Text)可以通过 mapreduce.input.keyvaluelinerecordreader.key.value,separator属性(或者旧版本 API 中的 key.value.separator.in.input.line)来设定分隔符。 它的默认值是一个制表符。以下是一个示例,输入是一

2021-04-06 10:49:31 396 1

原创 FileInputFormat接口实现类

FileInputFormat接口实现类》 FileInputFormat是什么?用于处理MR程序,读入的文件。文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件,也可以使用二进制格式,多行输入记录或者其它一些格式那么针对不同的数据类型,MapReduce是如何读取这些数据的呢?FileInputFormat 常见的接口实现类包括:TextInputFormat、KeyValueTextI

2021-04-06 10:38:43 491 1

原创 org.apache.hadoop.io.nativeio.NativeIO$Windows报错解决

控制台信息原因分析当前的hadoop环境与win10不完全兼容。有一个dll文件加载失败解决办法下载dll链接:https://pan.baidu.com/s/1R1rR70sgl4sezu62JHmIsA 提取码:y8pp 复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V5的分享复制复制到C:\Windows\System32然后再运行MR程序...

2021-04-02 09:27:09 2107 4

vue电商网站后台管理系统模板.rar

vue电商网站后台管理系统模板

2021-06-02

jstl的两个jar.zip

Day06JavaWeb【Jsp,el,jstl,综合案例】 Day06JavaWeb【Jsp,el,jstl,综合案例】 Day06JavaWeb【Jsp,el,jstl,综合案例】 Day06JavaWeb【Jsp,el,jstl,综合案例】

2020-09-13

apache-tomcat-8.5.56.zip

课程配套的apache服务器

2020-09-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除