自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 MySQL一键安装Shell脚本

脚本方式安装MySQL,只需一条命令即可安装完成MySQL

2022-12-21 10:06:30 609 1

原创 Shell三剑客之grep、sed

shell三剑客之grep与sed的使用,使用sed快速处理文本内容

2022-12-19 17:27:41 408

原创 Vue Vuex共享数据案例

Vuex在 Vue 中实现集中式状态(数据)管理的一个 Vue 插件,对 vue 应 用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方 式,且适用于任意组件间通信。2、不同窗口卖票,共享总票数2.1、效果2.3、窗口组件Window2.4、Vuex的使用在components同级目录中创建store/index.js文件3、mapState、mapGetters、mapActions、mapMutations的使用3.1、mapState使用使用mapSta

2022-06-14 17:38:01 269

原创 SparkSQL整合Hive

SparkSQL整合Hive1、Hive远程模式2、SparkSQL与Hive共用元数据2.1、开启Hive元数据服务2.1.1、修改配置2.1.2、启动服务2.2、拷贝hive-site.xml与mysql驱动2.3、启动SparkSQL2.4、测试使用3、SparkSQL JDBC连接方式3.1、启动Spark JDBC服务3.2、启动beeline3.3、测试使用1、Hive远程模式SparkSQL整合Hive需要明白如下结构图2、SparkSQL与Hive共用元数据2.1、开启Hive元数

2022-01-05 10:58:34 1826 1

原创 SparkSQL实战案例

SparkSQL实战案例1、需求分析1.1、数据说明1.2、需求2、需求一3、需求二1、需求分析1.1、数据说明每一列含义为:公司代码,年度,1月到12月的收入金额burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,10990,20990853

2022-01-03 22:06:39 643 2

原创 SparkSQL基础操作

SparkSQL基础操作1、读取与保存文件1.1、读取文本文件1.2、读取MySQL中的数据1.3、将数据保存为orc格式2、SparkSQL SQL语法3、SparkSQL DSL语法1、读取与保存文件1.1、读取文本文件读取以下文本文件1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班1500100004,葛德曜,24,男,理科三班1500100005,宣谷芹,22,女,理科五班1500100

2022-01-03 21:29:58 2544

原创 Spark RDD转换算子与行动算子

Spark RDD转换算子与行动算子1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDD  RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计

2021-12-30 20:44:38 1231 2

原创 Spark的Yarn Client与Yarn Cluster模式

Spark的Yarn Client与Yarn Cluster模式1、提交流程2、Yarn Client 模式3、Yarn Cluster 模式1、提交流程  提交流程,其实就是开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流程。  在不同的部署环境中,这个提交过程基本相同,但是又有细微的区别,国内工作中,将 Spark 引用部署到Yarn 环境中会更多一些,所以以下提交流程是基于 Yarn 环境的。DriverSpark 驱动器节点,用于执行 Spa

2021-12-30 19:46:26 705

原创 Scala函数式编程(基础与高级)

Scala函数式编程1、函数基础1.1、函数基本语法1.2、函数参数1.2.1、可变参数1.2.2、默认参数与带名参数1.3、函数至简原则2、函数高级2.1、高阶函数2.2、匿名函数2.2.1、匿名函数的至简原则2.2.1.1、传递一个参数2.2.1.2、传递两个参数2.3、闭包2.4、柯里化1、函数基础Scala 语言是一个完全函数式编程语言。万物皆函数。函数的本质:函数可以当做一个值进行传递1.1、函数基本语法1.2、函数参数1.2.1、可变参数语法:在所定义的参数类型后面加上一个*即可

2021-12-25 19:56:52 272

原创 pandas数据清洗

pandas数据清洗1、使用pandas进行数据清洗1.1、数据问题1.2、读取数据1.3、切分列1.4、删除列1.5、使用布尔索引筛选1.6、应用函数1.7、删除空行1.8、去重1、使用pandas进行数据清洗1.1、数据问题没有列头一个列有多个参数列数据的单位不统一缺失值重复数据非ASCII 字符有些列头应该是数据,而不应该是列名参数1.2、读取数据使用pandas读取数据时,如果原数据没有列名,需要指定列名,否则pandas将会默认使用第一行数据当做列名1.3、切分列函

2021-12-15 17:03:17 4674

原创 Python pandas常用操作

Python pandas常用操作1、数据结构1.1、Series1.1.1、创建方法1.1.2、属性1.2、DataFrame1.2.1、创建方法2、取值2.1、按照列取值2.2、按照行索引取值2.3、高级索引2.4、设置/取消索引3、操作数据3.1、删除数据3.2、排序和排名3.3、查询数据框信息3.4、应用函数3.5、缺失值3.6、数据去重3.7、合并数据3.8、分组聚合3.9、添加数据1、数据结构1.1、Series  Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类

2021-12-15 16:49:44 938

原创 flume简单使用案例

flume简单使用案例1、端口监听1.1、编写配置文件1.2、执行任务2、监控指定目录2.1、编写配置文件2.2、执行任务3、监控指定文件并过滤内容3.1、编写配置文件3.2、执行任务1、端口监听1.1、编写配置文件编写配置文件,并保存为netcatToLog.conf# 给agent起一个名字为aa.sources = r1a.channels = c1a.sinks = k1# 配置sourcea.sources.r1.type = netcata.sources.r1.bind

2021-12-09 22:50:54 1140

原创 DataX将Hive中的数据导入MySQL乱码

在MySQL中查询数据,中文显示?在执行任务的时候没有出现任何错误,但是就是中文乱码主要原因主要原因是在写jdbc连接的时候在末尾没有加上编码导致的解决方案在jdbc连接末尾加上?useUnicode=true&characterEncoding=utf8再次执行就会成功了!失败截图如下虽然在执行的过程中显示执行过程中没有错误,成功截图...

2021-12-08 17:17:00 1701

原创 DataX导入与导出数据

DataX导入与导出数据1、Datax安装2、从MySQL导出数据2.1、将MySQL中的student数据库中的student表导入hive中2.1.1、前提准备2.1.2、编写脚本2.1.3、执行脚本2.2、将MySQL中的数据导入hbase2.2.1、前提准备2.2.2、编写脚本2.2.3、执行脚本3、从Hive导出数据3.1、Hive中数据导入MySQL3.1.1、前提准备3.1.2、编写脚本3.1.3、执行脚本1、Datax安装DataX不需要依赖其他服务,直接将DataX上传解压配置环境变量

2021-12-08 16:58:17 2840

原创 Sqoop导入与导出数据

1、Sqoop部署基础环境:hadoop完全分布式集群、hive、zookeeper、hbase1.1、下载安装包官网下载安装包:官网链接地址将下载好的安装包上传至Linux,解压并修改名称1.2、修改配置文件进入Sqoop的conf目录下复制文件并重命名cp sqoop-env-template.sh sqoop-env.sh修改sqoop-env.sh文件,并添加如下内容,具体路径应灵活修改export HADOOP_COMMON_HOME=/usr/local/soft/hado

2021-12-06 22:39:49 5100

原创 Hbase索引( Phoenix二级索引)

Hbase索引( Phoenix二级索引)1、 Phoenix简介1.1、Phoenix安装1.2、常用命令1.3、phoenix表映射1.3.1、视图映射1.3.2、表映射1.3.3、视图映射与表映射区别2、Phoenix二级索引2.1、开启索引支持2.2、全局索引2.2.1、创建全局索引2.3、本地索引2.4、覆盖索引3、Phoenix JDBC1、 Phoenix简介  Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普

2021-12-03 21:26:36 1106

原创 Hbase过滤器

Hbase过滤器1、比较过滤器1.1、比较运算符1.2、比较器1.3、常见比较过滤器1.3.1、RowFilter 过滤器示例1.3.2、FamilyFilter示例1.3.3、QualifierFilter 示例1.3.4、ValueFilter示例2、专用过滤器2.1、单列值过滤器2.2、列值排除过滤器2.3、rowkey前缀过滤器2.4、分页过滤器3、多过滤器综合查询过滤器的作用:过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端过滤器的类型很多,但是可以分为两大类

2021-12-02 21:56:18 2081

原创 HBase常用Shell与JavaAPI操作

1、常用shell名称命令创建表create ‘表名’,‘列簇名1’,‘列簇名2’获取数据get ‘表名’,‘行键’ ,‘列簇名:列名’添加数据put ‘表名’,‘行键’ ,‘列簇名:列名’,‘值’查看所有表list查看表结构desc ‘表名’删除列delete ‘表名’, ‘行键’,‘列簇名:列名’删除一行数据delete ‘表名’, ‘行键’删除表drop ‘表名’ 删除表前需禁用表清空表数据truncate ‘

2021-12-01 14:13:48 283

原创 Hive常用函数、列转行与行转列、开窗函数、UDF、UDTF

Hive函数、开窗函数、UDF、UDTF1、系统内置函数2、常用函数2.1、关系运算2.2、数值运算2.3、条件函数2.4、日期函数2.5、字符串函数2.6、Hive求WordCount3、列转行4、行转列5、窗口函数5.1、常用窗口函数5.2、测试row_number()、rank()等函数5.3、测试lag、lead等函数6、window字句(窗口帧)与with字句6.1、window字句6.2、window字句使用6.3、with字句7、自定义函数7.1、UDF函数:一进一出7.2、UDTF函数:一进

2021-11-28 19:26:05 848 3

原创 IDEA连接Hive

IDEA连接Hive1、打开IDEA右侧database2、添加Hive连接3、手动下载依赖包3.1、hadoop common下的三个包3.2、hadoop MapReduce下的包3.3、hive lib下的所有包点击此处获取连接hive所需依赖包1、打开IDEA右侧database点击加号,选择Driver按照图中修改名称,并导入相关依赖: 点此处获取2、添加Hive连接按照下图依次配置连接测试成功3、手动下载依赖包3.1、hadoop common下的三个包3.2、

2021-11-26 21:23:46 3944

原创 Hive(基础)数据类型、DDL、DML操作、分区和分桶

Hive数据类型、DDL、DML操作、分区和分桶1、Hive数据类型1.1、基本数据类型1.2、集合数据类型1.3、数据类型转换1.3.1、隐式数据类型转换1.3.1、使用 CAST 操作显示进行数据类型转换2、DDL 数据定义2.1、创建数据库2.2、查询数据库2.3、创建表2.3.1、建表语法2.3.2、字段说明2.3.3、管理表(内部表)2.3.4、外部表2.3.5、内部表与外部表的互相转换2.4、修改表2.5、删除表3、DML 数据操作3.1、数据导入3.2、数据导出3.3、清除表数据4、分区表和分

2021-11-25 21:04:06 1659

原创 MapReduce概述

MapReduce概述1、MapReduce 定义2、MapReduce优缺点2.1、优点2.2、缺点3、MapReduce核心思想3.1、MapReduce流程图3.2、MapReduce 进程3.3、常用数据序列化类型3.4、MapReduce 编程规范3.5、WordCount 案例1、MapReduce 定义  MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。  MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件

2021-11-24 20:37:53 612

原创 HDFS的Shell操作与API操作

HDFS的Shell操作与API操作1、HDFS的Shell操作1.1、基本语法1.2、上传1.3、下载1.4、HDFS 直接操作2、HDFS的API操作2.1、获取文件系统2.2、javaAPI操作HDFS1、HDFS的Shell操作1.1、基本语法hadoop fs 具体命令hdfs dfs 具体命令具体命令[-appendToFile … ][-cat [-ignoreCrc] …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,

2021-11-24 20:00:18 566

原创 HDFS简介

HDFS概述1、HDFS 产生背景2、HDFS 定义3、HDFS优缺点3.1、优点3.2、缺点4、HDFS组成架构5、HDFS文件块大小1、HDFS 产生背景  随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。2、HDFS 定义  HDFS(Hadoop Distributed File System),它是一个文件系统,用

2021-11-24 19:14:34 160

原创 Hadoop之HA高可用

Hadoop之HA高可用1、集群规划2、前提3、免密配置4、修改hadoop配置文件4.1、hdfs高可用4.2、yarn高可用1、集群规划ZooKeeperNameNodeDataNodeReourceManageNodeManageJNZKFCmaster11111node11111111node211112、前提1、Zookeeper集群安装完毕2、jdk安装完成等等3、免密配置注意:两台Na

2021-11-22 21:19:24 385

原创 Zookeeper集群的安装与配置

1、上传安装包并解压到指定目录tar -zxvf zookeeper-3.4.6.tar.gz -C /usr/local/soft/2、配置环境变量vim /etc/profile使环境变量生效 source /etc/profile3、修改配置文件1、创建Zookeeper数据存储目录data2、进入conf目录修改配置文件将zoo_sample.cfg 文件复制一份为zoo.cfg 并修改3、将zookeeper分发至另外两台节点上scp -r zoo

2021-11-22 19:41:44 361

原创 Windows的IDEA上运行MapReduce

1、解压Hadoop包将下载好的hadoop-2.7.6.tar.gz包解压到任意目录,我的是D盘2、下载编译好的hadoop/bin地址:编译好的hadoop/bin将下载的winutils-master.rar解压,选择自己的版本将bin目录下的hadoop.dll文件复制到C:\Windows\System32目录下将下载的编译好的hadoop的bin目录①复制到解压hadoop-2.7.6.tar.gz的目录下替换bin②3、配置环境变量添加HADOOP_HO

2021-11-21 17:06:49 944

原创 redis持久化

1、rdb机制rdb是什么在指定的时间间隔内将内存中的数据集快照写入磁盘,也就是行话讲的Snapshot快照,它恢复时是将快照文件直接读到内存里。Redis会单独创建 ( fork )一个子进程来进行持久化,会先将数据写入到一个临时文件中,待持久化过程都结束了,再用这个临时文件替换上次持久化好的文件。整个过程中,主进程是不进行任何IO操作的。这就确保了极高的性能。如果需要进行大规模数据的恢复,且对于数据恢复的完整性不是非常敏感,那RDB方式要比AOF方式更加的高效。RDB的缺点是最后一次持久化后的

2021-11-17 15:54:34 561

原创 redis五大数据类型

1、String(字符串)1、设置字符串值 SET key value [EX seconds] [PX milliseconds] [NX|XX] EX 设置过期时间,秒,等同于SETEX key seconds value PX 设置过期时间,毫秒,等同于PSETEX key milliseconds value NX 键不存在,才能设置,等同于SETNX key value XX 键存在时,才能设置 2、设置多个键的字符串值 MSET key value [key value ...

2021-11-16 21:05:13 167

原创 Java多线程

1、多线程:指的一个程序中有多条执行路径的情况,我们称之为多线程程序2、多线程的实现方式:1、继承Thread类,重写run()方法,调用start()方法启动2、实现Runnable接口,重写run()方法,创建Thread对象把Runnable对象当作参数传递,调用start()方法启动3、实现Callable接口,重写call()方法,提交到线程池中运行,需要结合线程池newFixedThreadPool()newCachedThreadPool()newSingleT

2021-10-23 20:29:16 61

原创 Hive的安装(元数据存储在MySQL)

1、上传hive并配置环境变量上传Hive到linux指定目录下并解压至指定目录修改名为hive配置环境变量vim /etc/profile添加如下内容#hiveexport HIVE_HOME=/usr/local/hiveexport PATH=$PATH:$HIVE_HOME/binsource /etc/profile 使环境变量生效2、配置hive文件进入hive/conf目录下1、复制hive-env.sh.template为hive-env.sh修改hive-e

2021-06-11 22:02:26 289 3

winutils-master.rar

在Windows上运行MapReduce的文件

2021-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除