清梦清河-CSDN博客

原创 MySQL一键安装Shell脚本

脚本方式安装MySQL，只需一条命令即可安装完成MySQL

2022-12-21 10:06:30 787

原创 Shell三剑客之grep、sed

shell三剑客之grep与sed的使用，使用sed快速处理文本内容

2022-12-19 17:27:41 538

Vuex在 Vue 中实现集中式状态（数据）管理的一个 Vue 插件，对 vue 应用中多个组件的共享状态进行集中式的管理（读/写），也是一种组件间通信的方式，且适用于任意组件间通信。2、不同窗口卖票，共享总票数2.1、效果2.3、窗口组件Window2.4、Vuex的使用在components同级目录中创建store/index.js文件3、mapState、mapGetters、mapActions、mapMutations的使用3.1、mapState使用使用mapSta

2022-06-14 17:38:01 372

原创 SparkSQL整合Hive

SparkSQL整合Hive1、Hive远程模式2、SparkSQL与Hive共用元数据2.1、开启Hive元数据服务2.1.1、修改配置2.1.2、启动服务2.2、拷贝hive-site.xml与mysql驱动2.3、启动SparkSQL2.4、测试使用3、SparkSQL JDBC连接方式3.1、启动Spark JDBC服务3.2、启动beeline3.3、测试使用1、Hive远程模式SparkSQL整合Hive需要明白如下结构图2、SparkSQL与Hive共用元数据2.1、开启Hive元数

2022-01-05 10:58:34 1970 1

原创 SparkSQL实战案例

SparkSQL实战案例1、需求分析1.1、数据说明1.2、需求2、需求一3、需求二1、需求分析1.1、数据说明每一列含义为：公司代码,年度,1月到12月的收入金额burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,10990,20990853

2022-01-03 22:06:39 803 3

原创 SparkSQL基础操作

SparkSQL基础操作1、读取与保存文件1.1、读取文本文件1.2、读取MySQL中的数据1.3、将数据保存为orc格式2、SparkSQL SQL语法3、SparkSQL DSL语法1、读取与保存文件1.1、读取文本文件读取以下文本文件1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班1500100004,葛德曜,24,男,理科三班1500100005,宣谷芹,22,女,理科五班1500100

2022-01-03 21:29:58 2697

原创 Spark RDD转换算子与行动算子

Spark RDD转换算子与行动算子1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计

2021-12-30 20:44:38 1351 2

原创 Spark的Yarn Client与Yarn Cluster模式

Spark的Yarn Client与Yarn Cluster模式1、提交流程2、Yarn Client 模式3、Yarn Cluster 模式1、提交流程提交流程，其实就是开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流程。在不同的部署环境中，这个提交过程基本相同，但是又有细微的区别，国内工作中，将 Spark 引用部署到Yarn 环境中会更多一些，所以以下提交流程是基于 Yarn 环境的。DriverSpark 驱动器节点，用于执行 Spa

2021-12-30 19:46:26 785

原创 Scala函数式编程(基础与高级)

Scala函数式编程1、函数基础1.1、函数基本语法1.2、函数参数1.2.1、可变参数1.2.2、默认参数与带名参数1.3、函数至简原则2、函数高级2.1、高阶函数2.2、匿名函数2.2.1、匿名函数的至简原则2.2.1.1、传递一个参数2.2.1.2、传递两个参数2.3、闭包2.4、柯里化1、函数基础Scala 语言是一个完全函数式编程语言。万物皆函数。函数的本质：函数可以当做一个值进行传递1.1、函数基本语法1.2、函数参数1.2.1、可变参数语法：在所定义的参数类型后面加上一个*即可

2021-12-25 19:56:52 366

原创 pandas数据清洗

pandas数据清洗1、使用pandas进行数据清洗1.1、数据问题1.2、读取数据1.3、切分列1.4、删除列1.5、使用布尔索引筛选1.6、应用函数1.7、删除空行1.8、去重1、使用pandas进行数据清洗1.1、数据问题没有列头一个列有多个参数列数据的单位不统一缺失值重复数据非ASCII 字符有些列头应该是数据，而不应该是列名参数1.2、读取数据使用pandas读取数据时，如果原数据没有列名，需要指定列名，否则pandas将会默认使用第一行数据当做列名1.3、切分列函

2021-12-15 17:03:17 4957

原创 Python pandas常用操作

Python pandas常用操作1、数据结构1.1、Series1.1.1、创建方法1.1.2、属性1.2、DataFrame1.2.1、创建方法2、取值2.1、按照列取值2.2、按照行索引取值2.3、高级索引2.4、设置/取消索引3、操作数据3.1、删除数据3.2、排序和排名3.3、查询数据框信息3.4、应用函数3.5、缺失值3.6、数据去重3.7、合并数据3.8、分组聚合3.9、添加数据1、数据结构1.1、Series Series：一种类似于一维数组的对象，是由一组数据(各种NumPy数据类

2021-12-15 16:49:44 1068

原创 flume简单使用案例

flume简单使用案例1、端口监听1.1、编写配置文件1.2、执行任务2、监控指定目录2.1、编写配置文件2.2、执行任务3、监控指定文件并过滤内容3.1、编写配置文件3.2、执行任务1、端口监听1.1、编写配置文件编写配置文件，并保存为netcatToLog.conf# 给agent起一个名字为aa.sources = r1a.channels = c1a.sinks = k1# 配置sourcea.sources.r1.type = netcata.sources.r1.bind

2021-12-09 22:50:54 1231

原创 DataX将Hive中的数据导入MySQL乱码

在MySQL中查询数据，中文显示？在执行任务的时候没有出现任何错误，但是就是中文乱码主要原因主要原因是在写jdbc连接的时候在末尾没有加上编码导致的解决方案在jdbc连接末尾加上?useUnicode=true&characterEncoding=utf8再次执行就会成功了！失败截图如下虽然在执行的过程中显示执行过程中没有错误，成功截图...

2021-12-08 17:17:00 1832

原创 DataX导入与导出数据

DataX导入与导出数据1、Datax安装2、从MySQL导出数据2.1、将MySQL中的student数据库中的student表导入hive中2.1.1、前提准备2.1.2、编写脚本2.1.3、执行脚本2.2、将MySQL中的数据导入hbase2.2.1、前提准备2.2.2、编写脚本2.2.3、执行脚本3、从Hive导出数据3.1、Hive中数据导入MySQL3.1.1、前提准备3.1.2、编写脚本3.1.3、执行脚本1、Datax安装DataX不需要依赖其他服务，直接将DataX上传解压配置环境变量

2021-12-08 16:58:17 3268

原创 Sqoop导入与导出数据

1、Sqoop部署基础环境：hadoop完全分布式集群、hive、zookeeper、hbase1.1、下载安装包官网下载安装包：官网链接地址将下载好的安装包上传至Linux，解压并修改名称1.2、修改配置文件进入Sqoop的conf目录下复制文件并重命名cp sqoop-env-template.sh sqoop-env.sh修改sqoop-env.sh文件，并添加如下内容，具体路径应灵活修改export HADOOP_COMMON_HOME=/usr/local/soft/hado

2021-12-06 22:39:49 5347

原创 Hbase索引（ Phoenix二级索引）

Hbase索引（ Phoenix二级索引）1、 Phoenix简介1.1、Phoenix安装1.2、常用命令1.3、phoenix表映射1.3.1、视图映射1.3.2、表映射1.3.3、视图映射与表映射区别2、Phoenix二级索引2.1、开启索引支持2.2、全局索引2.2.1、创建全局索引2.3、本地索引2.4、覆盖索引3、Phoenix JDBC1、 Phoenix简介 Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普

2021-12-03 21:26:36 1264

原创 Hbase过滤器

Hbase过滤器1、比较过滤器1.1、比较运算符1.2、比较器1.3、常见比较过滤器1.3.1、RowFilter 过滤器示例1.3.2、FamilyFilter示例1.3.3、QualifierFilter 示例1.3.4、ValueFilter示例2、专用过滤器2.1、单列值过滤器2.2、列值排除过滤器2.3、rowkey前缀过滤器2.4、分页过滤器3、多过滤器综合查询过滤器的作用：过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端过滤器的类型很多，但是可以分为两大类

2021-12-02 21:56:18 2228

原创 HBase常用Shell与JavaAPI操作

1、常用shell名称命令创建表create ‘表名’，‘列簇名1’，‘列簇名2’获取数据get ‘表名’，‘行键’ ，‘列簇名:列名’添加数据put ‘表名’，‘行键’ ，‘列簇名:列名’，‘值’查看所有表list查看表结构desc ‘表名’删除列delete ‘表名’, ‘行键’，‘列簇名:列名’删除一行数据delete ‘表名’, ‘行键’删除表drop ‘表名’ 删除表前需禁用表清空表数据truncate ‘

2021-12-01 14:13:48 393

原创 Hive常用函数、列转行与行转列、开窗函数、UDF、UDTF

Hive函数、开窗函数、UDF、UDTF1、系统内置函数2、常用函数2.1、关系运算2.2、数值运算2.3、条件函数2.4、日期函数2.5、字符串函数2.6、Hive求WordCount3、列转行4、行转列5、窗口函数5.1、常用窗口函数5.2、测试row_number()、rank()等函数5.3、测试lag、lead等函数6、window字句（窗口帧）与with字句6.1、window字句6.2、window字句使用6.3、with字句7、自定义函数7.1、UDF函数：一进一出7.2、UDTF函数：一进

2021-11-28 19:26:05 1088 3

原创 IDEA连接Hive

IDEA连接Hive1、打开IDEA右侧database2、添加Hive连接3、手动下载依赖包3.1、hadoop common下的三个包3.2、hadoop MapReduce下的包3.3、hive lib下的所有包点击此处获取连接hive所需依赖包1、打开IDEA右侧database点击加号，选择Driver按照图中修改名称，并导入相关依赖：点此处获取2、添加Hive连接按照下图依次配置连接测试成功3、手动下载依赖包3.1、hadoop common下的三个包3.2、

2021-11-26 21:23:46 4472

原创 Hive(基础)数据类型、DDL、DML操作、分区和分桶

Hive数据类型、DDL、DML操作、分区和分桶1、Hive数据类型1.1、基本数据类型1.2、集合数据类型1.3、数据类型转换1.3.1、隐式数据类型转换1.3.1、使用 CAST 操作显示进行数据类型转换2、DDL 数据定义2.1、创建数据库2.2、查询数据库2.3、创建表2.3.1、建表语法2.3.2、字段说明2.3.3、管理表（内部表）2.3.4、外部表2.3.5、内部表与外部表的互相转换2.4、修改表2.5、删除表3、DML 数据操作3.1、数据导入3.2、数据导出3.3、清除表数据4、分区表和分

2021-11-25 21:04:06 1745

原创 MapReduce概述

MapReduce概述1、MapReduce 定义2、MapReduce优缺点2.1、优点2.2、缺点3、MapReduce核心思想3.1、MapReduce流程图3.2、MapReduce 进程3.3、常用数据序列化类型3.4、MapReduce 编程规范3.5、WordCount 案例1、MapReduce 定义 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件

2021-11-24 20:37:53 682

m0_51691291的博客

原创 MySQL一键安装Shell脚本

原创 Shell三剑客之grep、sed

原创 Vue Vuex共享数据案例

原创 SparkSQL整合Hive

原创 SparkSQL实战案例

原创 SparkSQL基础操作

原创 Spark RDD转换算子与行动算子

原创 Spark的Yarn Client与Yarn Cluster模式

原创 Scala函数式编程(基础与高级)

原创 pandas数据清洗

原创 Python pandas常用操作

原创 flume简单使用案例

原创 DataX将Hive中的数据导入MySQL乱码

原创 DataX导入与导出数据

原创 Sqoop导入与导出数据

原创 Hbase索引（ Phoenix二级索引）

原创 Hbase过滤器

原创 HBase常用Shell与JavaAPI操作

原创 Hive常用函数、列转行与行转列、开窗函数、UDF、UDTF

原创 IDEA连接Hive

原创 Hive(基础)数据类型、DDL、DML操作、分区和分桶

原创 MapReduce概述

原创 HDFS的Shell操作与API操作

原创 HDFS简介

原创 Hadoop之HA高可用

原创 Zookeeper集群的安装与配置

原创 Windows的IDEA上运行MapReduce

原创 redis持久化

原创 redis五大数据类型

原创 Java多线程

原创 Hive的安装（元数据存储在MySQL）

winutils-master.rar

空空如也