自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(132)
  • 资源 (1)
  • 问答 (6)
  • 收藏
  • 关注

原创 Hadoop伪分布式安装教程

hivesever2的模拟用户功能,依赖于Hadoop提供的proxy user(代理用户功能),只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此,需要将hiveserver2的启动用户设置为Hadoop的代理用户,配置方式如下:修改配置文件。首先,在根目录下创建文件夹 Downloads 用来存放传输上来的文件,在 opt 目录下创建 module 文件用来存放使用解压出来的大数据软件,选择一个安全的,并确保记住它,因为后面需要用到这个密码。要测试它,请检查其状态。

2024-05-29 14:10:13 1153

原创 nacos 2.3.0安装(Windows下)

浏览器输入http://localhost:8848/nacos并访问,默认的用户名和密码均为"nacos"。浏览器输入http://localhost:8848/nacos并访问,默认的用户名和密码均为"nacos"。版本开始,在未开启鉴权时,默认控制台将不需要登录即可访问,同时在控制台中给予提示,提醒用户当前集群未开启鉴权。2.2.2版本之前的Nacos默认控制台,无论服务端是否开启鉴权,都会存在一个登录页;版本后,Nacos可支持关闭开源控制台,并引导到用户自定义的Nacos控制台。

2024-01-24 12:05:00 2144

原创 Linux下安装MySQL

先进入目录/usr/local/mysql/mysql-5.7.35-linux-glibc2.12-x86_64。然后重命名mysql-5.7.35-linux-glibc2.12-x86_64。如果你查看出来有东西,可以使用下面命令将其删除(xxx 为文件全名)选择对应的包,右键复制下载链接。

2024-01-11 17:23:27 984

原创 Linux下安装redis

配置文件会存放在/usr/local/etc目录。一般都会将redis目录放置到 /usr/local/redis目录,所以这里输入下面命令将目前在/root目录下的redis-6.2.14文件夹更改目录,同时更改文件夹名称为redis。cd 到/usr/local目录下输入ls命令可以查询到当前目录已经多了一个redis子目录,同时/root目录下已经没有redis-6.2.14文件夹。cd到/usr/local/redis目录,输入命令make执行编译命令,接下来控制台会输出各种编译过程中输出的内容。

2024-01-11 15:24:12 849

原创 Spark Streaming

为了保证数据的安全性,防止了Receiver接受的数据丢失,可以开启Spark Streaming的预写日志WAL,WAL可以实现将Receiver每一批次的数据缓存到Spark的检查点目录。Spark Streaming运行的时候需要一个Receiver接收器接受数据,接受的数据设置缓存的地方,Receiver接受的数据一旦丢失,就算Spark有容错机制,无法计算了,因为没有数据源的数据了。实时计算的,一般使用在实时性要求比较高的场合。算子只对当前批次的数据有效,前一个批次的计算结果不清楚。

2023-10-11 00:08:38 528

原创 Kafka消息队列

【earliest、latest区别】: earliest当消费者所属的消费者组没有任何的消费记录,从头开始消费 latest当消费者所属的消费者组没有任何的消费记录,从最新的位置开始消费 如果他们所属的消费者组有消费记录,那么他们两者都是从消费记录的位置继续开始消费。分区,每一个Topic主题都可以指定存储的分区数,一般情况下,一个Broker会存储一个主题的一个分区数据,而且每一个分区还可以设置副本数保证存储数据的安全性,分区和分区副本之间有一个主从架构关系。

2023-10-11 00:07:50 443

原创 实训笔记——Spark SQL编程

ss.udf.register(name,函数)

2023-09-27 13:00:51 888

原创 实训笔记——Spark计算框架

Spark是一个分布式的计算框架,是Hadoop的MapReduce的优化解决方案。Hadoop的MR存在两大核心问题:1、无法进行迭代式计算 2、MR程序是基于磁盘运算,运算效率不高Spark主要解决了Hadoop的MR存在的问题,Spark是基于内存运算的一种迭代式计算框架。

2023-09-18 23:12:51 561

原创 Spark的基础

【注意】Spark的安装部署,Spark本身就是一个分布式计算框架,如果使用Spark,我们需要使用对应的编程语言编写Spark代码,编写Spark程序不需要部署Spark程序,因此Spark的安装部署主要指的是编写好的Spark程序在什么环境下运行(编写好的Spark程序使用哪种资源调度器进行资源的申请和调度)。Spark一个技术栈可以解决大数据中遇到的大部分计算场景问题,而且Spark各个子组件都是基于Spark Core的,因此Spark的各个子组件可以无缝的衔接转换。等等地方直接读取数据处理。

2023-09-18 13:01:48 254

原创 查找与排序

算法可视化网站:算法可视化代码仓库地址:gitee-查找与排序顺序查找是一种最简单的线性查找方法。其基本思想是:从表的一端开始,顺序扫描线性表,依次将扫描到的关键字和给定值k相比较,若当前扫描到的关键字与k相等,则查找成功;若扫描结束后,仍未找到关键字等于k的记录,则查找失败。为了提高查找速度,可以对上述算法进行改进,改进的顺序查找的基本思想:设置“哨兵”。哨兵就是待查值,将它放在查找方向的尽头处,免去了在查找过程中每一次比较后都要判断查找位置是否越界,从而提高了查找速度。例如如果查找方向是从左到右,则将待

2023-09-17 18:39:06 178

原创 408数据结构算法题目

例如S1={1,0,9},S2={-25,-10,10,11},S3={2,9,17,30,41},则最小距离为2,相应的三元组为(9,10,9)。所以说,我们想要获取到距离最短,那么改动b的位置是没有用的,甚至会让它距离更远(当b移动到[ a , c ] [a,c][a,c]外面以后)我们只能向右移动a,但是也有可能a移动太过了,比如超过了b,或者甚至超过了c,那么我们可以给它重新标个号,从左到右重新标为a,b,c。简而言之,只让最小的那个值往右走,这才会出现我们需要的尽可能小的状态!

2023-09-16 23:52:42 740

原创 操作系统经典同步问题

但是当缓冲区大小大于1的时候,父亲P(plate),可以访问盘子→母亲P(plate),可以访问盘子→父亲在往盘子里放苹果,同时母亲也可以往盘子里放橘子,于是就出现了两个进程同时访问缓冲区的情况可能导致两个进程写入缓冲区的数据相互覆盖的情况。哲学家们倾注毕生的精力用于思考和进餐,哲学家在思考时,并不影响他人。在上述描述中,这是一个读写公平的描述,但其实读者——写者问题也可以有其他两类情况,即读优先与写优先的情况,读优先顾名思义就是在这个过程中,读进程可以抢占写进程,而写优先是写进程可以抢占读进程。

2023-09-16 23:50:32 382

原创 Scala学习笔记

lambda表达式: 就等用于scala中匿名函数,使用函数式接口时,我们对函数式接口的简化操作,使用函数式接口大部分场景下都是使用匿名内部类的形式实现的,匿名内部类最核心的就是重写函数式接口的唯一的抽象方法把lambda就是简化匿名内部类的操作的。,Scala函数当中,形参是可以赋予默认值的,一旦形参赋予默认值,那么调用参数的时候,带有默认值的形参就可以不用传递参数了,带有默认值的形参一般要求放到形参列表的最后,如果没有放到最后,那么调用的时候,给其他形参传递参数,需要带有参数名传递。

2023-09-13 21:45:25 341

原创 实训笔记9.12

访问控制修饰符 class 类名(主构造器){ 类体 }

2023-09-12 23:26:03 445

原创 实训笔记9.4

【代码】实训笔记9.4。

2023-09-04 21:17:49 694

原创 实训笔记9.1

ODS层指的是我们把清洗预处理完成的数据不加以任何的处理,直接原模原样的在Hive中构建与之对应的表格,并且把数据装载到表格当中清洗预处理完成的数据格式以\001特殊字符分割的,这样的话可以避免分隔符和字段的中一些符号冲突,导致装载数据到Hive出现串行的问题。Hive中数据表有很多分类的:内部表、外部表、分区表、分桶表考虑:数据统计分析一天执行一次,也就意味着我们每天处理完成的数据都需要往Hive的ODS层的数据表导入一份,如何区分ODS层导入的数据是哪一天?需要构建一个分区表(基于时间的)。

2023-09-01 18:58:09 452

原创 实训笔记8.31

ODS层指的是我们把清洗预处理完成的数据不加以任何的处理,直接原模原样的在Hive中构建与之对应的表格,并且把数据装载到表格当中清洗预处理完成的数据格式以\001特殊字符分割的,这样的话可以避免分隔符和字段的中一些符号冲突,导致装载数据到Hive出现串行的问题。Hive中数据表有很多分类的:内部表、外部表、分区表、分桶表考虑:数据统计分析一天执行一次,也就意味着我们每天处理完成的数据都需要往Hive的ODS层的数据表导入一份,如何区分ODS层导入的数据是哪一天?需要构建一个分区表(基于时间的)。

2023-08-31 18:49:44 440

原创 实训笔记8.30

ODS层指的是我们把清洗预处理完成的数据不加以任何的处理,直接原模原样的在Hive中构建与之对应的表格,并且把数据装载到表格当中清洗预处理完成的数据格式以\001特殊字符分割的,这样的话可以避免分隔符和字段的中一些符号冲突,导致装载数据到Hive出现串行的问题。Hive中数据表有很多分类的:内部表、外部表、分区表、分桶表考虑:数据统计分析一天执行一次,也就意味着我们每天处理完成的数据都需要往Hive的ODS层的数据表导入一份,如何区分ODS层导入的数据是哪一天?需要构建一个分区表(基于时间的)。

2023-08-30 19:37:55 450

原创 实训笔记8.29

访客的用户信息访客的终端信息请求网址信息请求来源信息请求的产品信息。

2023-08-29 18:58:30 817

原创 实训笔记8.28

用户行为数据不管什么网站都会有用户的行为数据记录,行为数据指的是用户在网站当中进行的一系列动作,背后都会触发一些程序记录用户的行为数据。用户行为数据我们会通过程序一般都记录到日志文件当中用户行为数据基本都是源源不断的产生的(7*24小时不停止的产生)网站的用户行为数据记录不是大数据开发工程师的事,而是软件开发人员的工作(前端、后端工作人员) 无非就是产生数据的时候需要和大数据开发人员沟通记录用户的哪些数据而已。

2023-08-28 18:28:31 407

原创 实训笔记8.25

三个Flume进程,其中第一个Flume采集端口的数据,第二个Flume采集文件的数据,要求第一个Flume进程和第二个Flume进程将采集到的数据发送给第三个Flume进程,第三个Flume进程将接受到的数据采集到控制台上。有一个文件夹,文件夹下记录着网站产生的很多日志数据,而且日志文件不止一个,就像把文件夹下所有的文件数据采集到控制台,同时如果这个文件夹下有新的数据文件产生,也会把新文件的数据全部采集到控制台上。我们还需要多Agent进程中的source、channel、sink起别名的。

2023-08-25 18:02:02 414

原创 实训笔记8.24

Flume也是Apache开源的顶尖项目,专门用来采集海量的日志数据到指定的目的地。Flume采集数据采用一种流式架构思想,只要数据源有数据,就可以源源不断的采集数据源的数据到目的地。

2023-08-24 18:50:38 645

原创 实训笔记8.23

Hive底层会转换成为MapReduce运行,MapReduce阶段中间都是可以进行压缩的。因此Hive也支持设置压缩机制(也是设置转换的MR程序底层是Map阶段压缩 还是reduce阶段压缩)Hive底层也可以转换成为Spark或者TEZ程序运行,Spark和TEZ的压缩和Mapreduce的压缩是不一样的。

2023-08-23 18:20:46 684

原创 实训笔记8.22

用户自定义函数就是我们觉得hive内置函数不满足我们的需求,我们可以自定义函数实现我们想要的功能(Hive底层也都是Java,自定义函数也是编写Java代码的)创建一个Java项目引入编程依赖创建lib目录,自己找jar包放到lib目录下,然后lib目录add as library hive的安装目录的lib目录下使用maven然后根据gav坐标引入依赖编写对应的函数类:UDF、UDTF、UDAF大部分自定义都是UDF和UDTF函数将编写好的Java代码打成jar包。

2023-08-23 11:49:16 369

原创 实训笔记8.21

Hive的HQL的复杂查询语句底层会转换成为MR程序进行运行,查询的过程中如果我们需要对查询的结果进行排序,那么我们可以使用order by进行排序,order by是全局排序,一旦使用order by 那么HQL语句转换的MR程序底层的reduce任务只有一个,这样的话会把所有的map任务的数据拉取过来,输出一个结果文件,结果文件全局有序。根据一个文件,将一个文件的数据直接装载到Hive的数据表当中,要求文件的分隔符必须和创建表的时候指定的分隔符一致。

2023-08-21 18:35:03 338

原创 实训笔记7.28

也是将文件装载到数据表当中(底层表现就是会把文件移动到数据表所在的目录下),load装载命令相比于手动上传文件而言,load不会出现数据上传无法识别的情况,因此load装载数据会走hive的元数据。Hive中存储的数据是以数据库和数据表的形式进行存储的,因此我们就可以使用DML操作对表数据进行相关的增加、删除、修改等操作。但是因为hive的特殊性,Hive对数据的修改和删除不是特别的支持。分区表指定分区字段,分区字段不能是表字段,表字段是要在文件中存储的,分区字段是以目录的形式表示的。

2023-07-28 18:23:28 460

原创 实训笔记7.27

分区表可以是管理表也可以是外部表,分区表和普通数据表不一样的地方在于,在HDFS存储数据的时候,非分区表是将数据以文件的形式直接存储到数据表所在目录下,而分区表会先在数据表所在目录下创建一个一个文件夹,然后再在文件夹里面放对应分区的数据,文件夹都是按照指定的数值进行操作的。在有些情况下,我们使用的数据不只只有hive在使用,spark flink可能都在使用这个数据,因此hive如果不使用这个数据了,把表删除了,但是数据是不能删除的,此时这样的表设置成为外部表。

2023-07-27 18:40:26 400

原创 实训笔记7.26

Hive的元数据metaStore,Hive不负责存储任何的数据,包括hive创建的数据库、数据表、表结构等等内存,都不是在hive中的存放的,还有表数据(HDFS上),这些信息我们都是在Hive的元数据中进行存放,元数据存放到一个关系型数据库中(比如MySQL、oracle、SQL Server 、Derby数据库)Hive连接MySQL的时候还有一个问题,MySQL连接需要用户名和密码,但是hive默认情况下不知道,需要修改hive的一个配置文件,指定连接的MySQL的用户名和密码、驱动程序等等。

2023-07-26 18:29:33 394

原创 实训笔记7.25

YARN是一个分布式资源调度系统,专门用来给分布式计算程序提供计算资源的,而且YARN只负责进行资源的提供,不管计算程序的逻辑,因此YARN这个软件非常的成功,因为YARN不关注程序计算逻辑,因此只要是分布式计算程序,只要满足YARN的运行要求,那么就可以在YARN上进行运行,由YARN进行资源调度。在MR中使用压缩机制,不需要我们去进行手动的压缩和解压缩,只需要在MR的合适的位置指定我们使用的是何种压缩机制,MR程序会自动的调用设置的压缩和解压缩算法进行自动化操作。在同一个时刻,可以下发多个任务。

2023-07-25 18:24:33 308

原创 实训笔记7.24

实训笔记7.247.24笔记一、Hadoop中MapReduce框架的使用原理和流程1.1 涉及到一些框架核心组件1.1.1 InputFotmat1.1.2 MapTask1.1. 3Partitioner1.1.4 WritableComparable1.1.5 Combiner(可选)1.1.6 WritableComparator(GroupingComparator)1.1.7 ReduceTask1.1.8 OutputFormat二、Hadoop中对于SequenceFile文件的支持和处理2

2023-07-24 18:26:40 300

原创 实训笔记7.22

*** MR程序辅助排序(分组排序)的案例:* 辅助排序是reduce拉取完数据之后执行,通过辅助排序,reduce可以判断哪些key值为相同的key,如果没有辅助排序,那么MR程序会使用map阶段输出的key的排序规则当作key值判断相等的条件* 现在有一个订单文件,格式如下:* 订单id 商品id 成交金额* 这个文件三列,每一列之间都是以\t分割的。现在我们需要基于上述的文件求每一个订单中成交金额最大的商品。

2023-07-22 18:16:43 219

原创 实训笔记7.21

reduceTask的数量大于分区数,那么会产生多个结果文件,只不过有些结果文件就是一个空白文件,多余的reduceTask没有分区数据处理才会产生空白文件reduceTask的数量小于分区数,而且大于1的,报错reduceTask的数量小于分区数,但是等于1 正常执行,只不过分区不执行了整体Shuffle阶段,一共对数据进行三次排序,而且最终输出结果文件里面的数据其实是有顺序的。

2023-07-21 18:36:30 276

原创 实训笔记7.20

自定义一个类继承InputFormat重写getSplits方法重写createRecordReader方法。

2023-07-20 18:21:59 153

原创 实训笔记7.19

MR程序运行需要在控制台输出日志,MR程序控制台输出的日志能清洗看到MR程序切片数量以及MapTask的数量和ReduceTask的数量 但是默认情况下控制台是无法输出日志的,如果要输出日志信息,我们需要对代码进行修改需要在项目的resources目录引入log4j.properties文件 日志信息输出文件,文件当中定义了我们如何输出日志信息引入一个日志框架的依赖,如果没有这个依赖,那么日志文件不会生效输出 pom.xml</</</</

2023-07-19 18:29:54 1334

原创 实训笔记7.18

Hadoop解决了大数据面临的两个核心问题:海量数据的存储问题、海量数据的计算问题其中MapReduce就是专门设计用来解决海量数据计算问题的,同时MapReduce和HDFS不一样的地方在于,虽然两者均为分布式组件,但是HDFS是一个完善的软件,我们只需要使用即可,不需要去进行任何的逻辑的编辑。

2023-07-18 18:36:02 1130

原创 实训笔记7.13

我的故事你说,我的文字我落,我值几两你定,我去何方我挑。FileSystem类。

2023-07-13 22:55:43 654

原创 实训笔记7.12

HDFS是一个分布式文件存储系统,可以存储数据(文件数据),HDFS既然是一个文件系统,那么就可以进行文件的上传、下载、删除、创建文件夹等等。伪分布式安装—将分布式软件的所有组件安装到同一个节点 如果是伪分布式安装,从节点只有一个即可。完全分布式安装–将分布式软件的组件安装到不同的节点上 从节点可以有多个。HDFS不适用于大量小文件的常量、HDFS不能对存储的文件进行修改操作。我的故事你说,我的文字我落,我值几两你定,我去何方我挑。配置HDFS和YARN的从节点在哪些节点上安装的。主从架构的分布式软件。

2023-07-12 18:19:25 354

原创 实训笔记7.11

解决集群中多台节点的IP地址不容易记忆的问题,在安装操作系统的时候,我们就已经有意的给每一台节点起了一个独一无二的主机名,如果进行登录的时候,能根据主机名去自动识别IP地址。第四种:HA高可用安装模式:hdfs和yarn的主从架构组件安装到不同节点上,同时还需要把他们的主节点多安装两三个,但是在同一时刻只能有一个主节点对外提供服务。NAT模式的网络使用的网段和局域网的网段不是同一个网段,网段就是vmnet8网卡提供的。本地安装的操作系统只能被我们的主机访问到,同一个局域网下的其他主机无法访问的。

2023-07-11 23:44:09 265

原创 实训笔记7.10

去网上下载国内的yum数据源,下载到/etc/yum.repos.d目录下,并且需要把yum数据源命令为CentOS-Base.repo。如果我们要编写shell代码,首先我们需要创建一个文件,文件的后缀名必须.sh,.sh文件有两种执行方式。yum自带了一个yum源(yum的原始的软件商店),只不过yum源是国外的 yum repolist。权限代表的是非文件拥有者、非当前文件所属组用户以外的其他用户的权限。清理以前的yum缓存,然后基于新的软件商店建立新的yum缓存。

2023-07-10 18:27:50 213

原创 实训笔记7.7

默认情况下yum的软件商店是国外的网站,所以yum默认情况下下载软件速度非常的慢 yum也可以把仓库换成国内的仓库网站。随意编写文件 编辑模式只能从指令模式进入:a A i I o O。默认进入的是指令模式:不能随意编写文件,只能使用一些快捷键编写文件。我的故事你说,我的文字我落,我值几两你定,我去何方我挑。命令行模式只能从指令模式进入:/?命令行模式:搜索文件以及退出或者保存文件的。移动的文件路径 移动到的文件路径。编辑模式退到指令模式:esc。:代表的是保存和退出文件的。

2023-07-07 22:18:26 332

opengauss本地部署先关软件.zip

1.jdk1.8 2.远程连接工具mobaxterm 3.可视化软件data studio

2021-10-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除