自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 主从复制1

1

2023-10-23 15:52:46 103

原创 保姆级教程:xtrabackup全量备份主库+从库恢复+主从复制

1、xtrabackup软件安装2、全量备份主库数据3、从库恢复数据4、开启二进制bin_log5、主从复制关系搭建

2023-02-21 22:22:09 923

原创 Linux云服务器升级MySQL5.7至MySQL8.0.23

一、背景介绍二、正式安装部署一、背景介绍1、由于漏洞扫描,MySQL5.7版本扫描出上百个漏洞,也不大清楚漏洞扫描工具的机制,于是就直接将MySQL5.7升级至MySQL8.0.23;访问公司数据库也都需要vpn,可能我的版本有问题,使用grant all privileges on . to ‘root’@‘password’ identified by ‘password’; 把之前的%权限给取消掉了,但是使用远程工具navicat连接还是有问题;注意:记得全量备份数据库,因为我都是使用二进制安

2021-07-21 17:16:05 476

原创 Linux下挂载腾讯云硬盘

1、参照官方文档:https://cloud.tencent.com/document/product/362/57452、实际在linux上的操作:fdisk -l:查看磁盘名称和回显信息-回显信息表示当前云服务器共有2块磁盘,/dev/vda–>系统盘和/dev/vdb–>新增的数据盘;第二步:fdisk /dev/vdb,进入这个分区,输入m是查看这个分区下的信息第三步:按n开始新建分区,p表示主要分区,e表示延申分区;我们输入p新建一个主分区,主分区选择1,接着开始选

2020-12-04 17:51:24 234

原创 Linux下安装postgresql-11.7并使用navicat进行远程连接

一、CentOS6.5上安装postgresql-11.71.1、创建data、log目录 && 配置环境变量1.2、初始化数据库二、使用Navicat for postgresql远程连接数据库一、CentOS6.5上安装postgresql-11.71、进入官网,下载source源码包:网址:https://www.postgresql.org/ftp/source/v11.7/使用wget进行下载:wget https://ftp.postgresql.or

2020-06-27 21:46:18 1238

原创 大数据调度平台之-Azkaban

一、Spark-Core(三)回顾1.1、Spark on yarn的运行方式二、Shuffle的剖析2.1、2.1、IDEA下使用repartition和coalesce对用户进行分组2.2、coalesce和repartition在生产上的使用2.3、reduceByKey和groupByKey的区别2.4、图解reduceByKey和groupByKey2.5、reduceByKey和groupByKey的源码&&aggregateByKey2.6、collect

2020-06-13 17:45:34 2092

原创 Spark-Core(四) - Shuffle剖析&&ByKey算子解析&&Spark中的监控&&广播变量、累加器

一、Spark-Core(三)回顾1.1、Spark on yarn的运行方式二、Shuffle的剖析2.1、遇到action产生job2.2、job产生stage2.3、rdd中的cache2.4、Spark-shell中测试rdd缓存 && StorageLevel2.5、Spark-Core中的框架选择(MEMORY_ONLY)2.6、recomputing重算概念2.7、Spark中的宽窄依赖三、回顾Hadoop中的Yarn3.1、 Spark on

2020-06-13 12:02:21 469

原创 Spark-Core(三) - Stage剖析&&Spark on yarn的两种模式

一、Spark-Core(二)回顾二、Stage剖析2.1、遇到action产生job2.2、job产生stage2.3、rdd中的cache2.4、Spark-shell中测试rdd缓存 && StorageLevel2.5、Spark-Core中的框架选择(MEMORY_ONLY)2.6、recomputing重算概念2.7、Spark中的宽窄依赖三、Spark的运行架构(重要指数五颗星)3.1 总结3.2 Cluster Mode Overview一、S

2020-06-11 16:41:03 432

原创 Spark-Core(二) - LogApp日志数据的解析&&Spark的运行架构

一、Spark-Core基础篇回顾二、Spark如何进行大数据的逻辑处理2.1、入门代码遇到的一个简单错误2.2、求得买个域名下的流量之和2.3、每个省份访问次数的TopN(生产上边界值的处理)三、Spark的运行架构(重要指数五颗星)3.1 总结3.2 Cluster Mode Overview一、Spark-Core基础篇回顾1、为什么选择Spark?Fast:10倍于disk磁盘、100倍于memory内存Easy code:编码容易、交互式的命令行interactiv

2020-06-10 17:20:05 316

原创 大数据知识阶段总结(一)

一、RDD常用算子再次实验一、RDD常用算子再次实验1、准备20-30秒的自我介绍,有特色些的2、画出你们的大数据架构,针对架构提问,如何做到精准一次、小文件规避?MapReduce离线架构图,有哪些环节,什么到什么地方有哪些东西,为什么要这么选择这个架构;为什么要选择MapReduce或者spark;不要具体落地到某个业务场景中去;要搞成一个通用形态的架构,比如数据到hdfs采用什么格式,选择什么压缩方式?为什么要选择压缩,压缩带来的好处是什么,生产需要分清楚是什么样的场景?生产上小文件的规

2020-06-09 12:20:23 396

原创 Spark基础篇(六) - IDEA开发Spark代码

一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量的TopN && Spark-Core实现2.2、Spark-Core求出平均年龄2.3、求男女人数、最低、最高身高三、IDEA整合Maven搭建Spark应用程序3.1、案例开发&&上传jar包到服务器&&测试数据准备3.2、结果输出到控制台&&HDFS目录3.3、处理多个输入文件&&输入文件规则匹配&&

2020-06-08 19:45:20 587

原创 Spark基础篇(五) - RDD的高级算子&&IDEA搭建、开发Spark应用程序

一、RDD常用算子再次实验二、JOIN在Spark Core中的使用2.1、使用Spark-Core进行词频统计分析2.2、RDD中subtract && intersection && cartesian使用详解三、IDEA整合Maven搭建Spark应用程序一、RDD常用算子再次实验1、新建一个数据集:scala> val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9))a: org.apache.spark

2020-06-08 12:39:26 447

原创 Spark基础篇(四) - RDD的创建和算子使用

一、SparkContext、SparkConf内容回顾二、RDD创建的两种方式2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、SparkContext、SparkConf内容回顾1、SparkContext、SparkConf、spark-shell中一些常用参数介绍2、开发程序前

2020-06-07 10:48:29 610

原创 Spark基础篇(三) - 创建RDD的前提(先创建SparkContext、SparkConf)

一、RDD五大特性回顾二、创建Spark应用程序前需要创建SparkContext2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、RDD五大特性回顾面试相关:1、RDD是什么?为什么是分布式?为什么是弹性?谈一下你对RDD的理解?结合RDD.scala进行理解;RDD五大特性与源码

2020-06-04 17:38:18 976

原创 Spark基础篇(二) - RDD的理论知识

一、什么是RDD二、RDD的源码定义三、RDD五大特性详解四、RDD五大特性和源码的对应关系五、图解RDD一、什么是RDD在Spark中,建议大家面向DF/DS编程,但是不管怎么滴,RDD的理解对于后续使用高级别的API使用会更好。RDD:Resilent Distributed Dataset,弹性分布式数据集,是Spark中最基本的数据抽象(the basic abstraction in spark)作用:让开发者大大降低开发分布式应用程序的门槛及提高执行效率。直接GitHub上查看

2020-06-04 15:04:39 225

原创 Linux上挂载的系统盘符满了该怎么处理

1、生产出现如下案例情况,安装的应用和数据全部在了系统盘,使用率此时已经到了79%;Hive、HDFS的存储目录都在/dev/vda1;如何解决?mv移动占内存大的文件(一般是log文件),然后做个软连接;注意软连接使用的目录权限;如何理解软连接?就比如windows上D盘写满了,数据迁移到E盘,然后建个快捷键在D盘相同位置,那么程序还是读取D,自动跳转到E;也好比windows上的快捷键,正常建到桌面公司部署了CDH平台的话也可以直接在上面做数据存储目录的修改:修改后重启集群即

2020-06-04 11:20:49 1242

原创 Spark基础篇(一) - 概述&&源码编译

第一章:MapReduce的局限性–>Spark的产生1.1 各个框架单独为战&&使用Spark框架做对比第二章:Spark概述及特点2.1 四大特性(Speed、Ease Of Use、Generality、Runs Everywhere)2.2 Spark各个版本介绍第三章:自定义编译Spark3.1 Spark目录解读3.2 在Spark客户端上完成一个wordcount第一章:MapReduce的局限性–>Spark的产生繁杂,不管是开发

2020-06-03 17:32:50 299

原创 Scala实战作业(一)

一、Scalikejdbc操作MySQL数据库1.1、通过SQL准备一张表,有id,name,age三个字段1.2、通过Scalikejdbc往user表中添加10条记录1.3、通过Scalikejdbc查询表中所有的数据1.4、通过Scalikejdbc将id=8的数据的age加10一、Scalikejdbc操作MySQL数据库1.1、通过SQL准备一张表,有id,name,age三个字段1.2、通过Scalikejdbc往user表中添加10条记录1.3、通过Scalikejdbc查

2020-06-02 13:30:08 586

原创 Scala实战三

一、上次课回顾二、ScalaJDBC连接Scala中的类型&&转换三、函数、方法3.1 函数的定义3.2 函数的调用3.3 函数循环表达式四、面向对象编程4.1 面向对象-从定义类开始4.2 定义SparkConf4.3 构造器(主构造器和附属构造器)一、上次课回顾https://blog.csdn.net/SparkOnYarn/article/details/106384630讲了函数完整的定义,定义函数的入参,每一个参数的定义;如果有返回值,

2020-06-01 23:27:52 429

原创 Tableau第四次课

一、Tableau制作标靶图1.1、二月份电量销售额完成情况1.2、参考线与参考区间二、Scala的变量Var、Val2.1、甘特图的概念与用途2.2、交货延期情况的甘特图2.3、不同的日期类型选择三、创建超市不同子类别产品的盈亏瀑布图四、本次课程作业一、Tableau制作标靶图1.1、二月份电量销售额完成情况1、筛选统计周期为2月份的;省市示例数据拖拽到行单元格,当期值拖拽到列单元格;点击右下角,添加参考线;2、范围有三种:整个表(比如有南北两区,选择整个表不会理会分区,还

2020-05-31 18:18:01 524

原创 Scala实战二

一、上次课回顾二、Scala的变量Var、Val类型转换三、函数、方法3.1函数的定义3.2函数的调用3.3函数循环表达式一、上次课回顾1、注意源数据与元数据的区别,源数据对于Mapreduce来说的话就相当于是输入的数据;而元数据是描述数据的数据2、Hive对应到MySQL元数据库中的一些表,tbls dbl表的关联关系3、集群数据规模的评估,多少机器、多少业务线、几副本、数据要存几年,拿到磁盘的空间,需要预留30%-50%的空间,为了避免数据突增;比如系统OOM,mapred

2020-05-27 16:25:26 375

原创 Tableau第三课

一、上次课程回顾二、基本表2.1、基本表的使用2.2、凸显表的使用三、树形图3.1、不同类型电影数量与票房3.2、香港不同地区酒店数量与价格四、气泡图与词云4.1、不同类型电影数量与票房4.2、动作电影动态气泡图4.3、词云图制作五、本次课程作业一、上次课程回顾https://blog.csdn.net/SparkOnYarn/article/details/106353978二、基本表2.1、基本表的使用就相当于是一个excel表,把地区(酒店数据)拖拽到

2020-05-27 14:13:39 1693

原创 Tableau第二课

一、上次课程回顾二、Tableau界面介绍2.1、数据导入界面2.2、数据源界面2.3、工作表界面三、Tableau绘制条形图3.1、各地区酒店数量3.2、各地区酒店均价3.3、价格等级堆积图四、Tableau绘制直方图4.1、官方图概念与用途4.2、创建评分直方图五、本次课程作业一、上次课程回顾https://blog.csdn.net/SparkOnYarn/article/details/106334256二、tableau完成数字格式的拆分对于一列数据

2020-05-26 22:51:37 973

原创 Tableau第一课

一、Tableau下载与安装二、Tableau界面介绍2.1、数据导入界面2.2、数据源界面2.3、工作表界面三、Tableau绘制条形图3.1、各地区酒店数量3.2、各地区酒店均价3.3、价格等级堆积图四、Tableau绘制直方图4.1、官方图概念与用途4.2、创建评分直方图一、Tableau简介、下载与安装官网:https://www.tableau.com/Harness the power of your data(利用数据的力量). Unleash

2020-05-26 12:30:36 587

原创 JVM系列(一)

一、Why study jvm二、Linux上使用jvm2.1、常用压缩格式介绍2.2、压缩的配置使用&&运行wordcount案例三、Hive中的UDF函数四、本次课程涉及面试题一、Why study jvm无论是Java还是大数据,都会面试JVM相关的信息,无论是性能调优还是参数监控,不管是hadoop系列还是spark系列,它都是跑在JVM之上的,就像hadoop和spark运行,一用就OOM,不同的异常信息采用不同的解决方案,JVM在生产上面是非常非常重要的,最

2020-05-15 13:57:23 497

原创 实战班-Hive高级(二)

一、上次回顾二、Hive SQL的执行流程2.1、常用压缩格式介绍2.2、压缩的配置使用&&运行wordcount案例三、Hive中的UDF函数四、本次课程涉及面试题一、上次回顾https://blog.csdn.net/SparkOnYarn/article/details/105706114二、Hive SQL的执行流程1、场景:数据量不大,但是使用Hive SQL执行起来比较慢;Hive中常用的SQL语句?select yyy,聚合函数 from xxx

2020-05-13 15:29:34 212

原创 Hadoop之LZO压缩&&HUE部署

一、需求二、Hadoop配置LZO压缩&&分片和不分片2.1、编译hadoop-lzo2.2、压缩的配置使用&&运行wordcount案例三、HUE部署3.1、使用HUE访问HDFS3.2、使用HUE访问HDFS一、需求需求一:使用编译过支持压缩的Hadoop,使用LZO压缩创建一个文本,压缩以后大小是200M,启用分片&&不启用分片;需求二:使用HUE访问HDFS,使用HUE查询Hive二、Hadoop配置LZO压缩&am

2020-05-12 18:38:56 335

原创 实战班-Hive高级(一)

一、项目回顾二、把ADS层的数据导到MySQL2.1、如何在ADS层做指标计算2.2、分组求TopN三、遇到的问题一、项目回顾https://blog.csdn.net/SparkOnYarn/article/details/105460505...

2020-05-11 17:59:52 291

原创 编译hadoop2.6.0-cdh5.7.0源码使其支持压缩

一、前置环境要求1.1、部署jdk1.2、部署maven1.3、部署protobuf1.4、解压hadoop源码开始编译二、数仓项目作业一、前置环境要求直接使用hadoop2.6.0-cdh5.7.0.tar.gz的包部署的hadoop集群在生产上是不支持压缩的,生产上的hadoop是需要使用压缩的,故需要下载hadoop的源码编译使其支持压缩;下载hadoop2.6.0-cdh5.7.0-src.tar.gz,使用maven编译,使其支持压缩,并成功进行伪分布式集群部署验证压缩。

2020-05-10 19:50:09 196

原创 剑指数据仓库-项目篇(五)

一、进行指标计算2.1、案例:抽取数据过程中遇到的问题2.2、如何在ADS层做指标计算2.3、分组求TopN2.4、Hive的行转列&&Dbeaver数据导出三、部署Rundeck遇到的问题(Linux的OOM机制)一、进行指标计算使用SQOOP把Hive中ads_bill_sum_count这张表的数据导入到MySQL中dw数据库中的ads_bi...

2020-05-04 12:20:08 545

原创 Docker上安装部署Superset

一、Docker上安装部署Superset二、Superset配置MySQL的数据源一、Docker上安装部署SupersetDocker一定要在CentOS7上的机器进行部署,否则会出现问题1、查看正在运行中的镜像[root@hadoop001 ~]# docker psCONTAINER ID IMAGE COMMAND ...

2020-05-02 22:56:43 1299

原创 MySQL中的行转列、列转行、分组求TopN

一、MySQL的行转列二、MySQL的列转行三、MySQL中分组求TopN一、MySQL的行转列案例一:数据准备:1、创建salgrade学生成绩表:create table salgrade(name varchar(20) comment '学生姓名',subject varchar(20) comment '学科',score float comment '成绩') e...

2020-04-29 17:04:53 621

原创 Superset的安装部署

一、Superset的安装部署1.1、安装Python3的环境1.2、安装EPEL源并安装superset必备的包1.3、安装Python3的virtualenv并建立superset的env1.4、在env中安装superset1.5、安装superset的数据包1.6、配置superset1.7、配置superset1.8、MySQL中创建superset数据库1.8.1...

2020-04-28 13:35:59 2131 2

原创 MySQL主从复制及生产如何采集至大数据

一、本次课程主题二、MySQL单节点部署三、离线项目步骤处理一、本次课程主题数据库:MySQL、PostgreSQL、Cassandra1、搭建部署单节点2、主从架构(读写分离)及部署3、故障案例4、MySQL如何落地到大数据平台5、拓展思考:二、MySQL单节点部署https://blog.csdn.net/SparkOnYarn/article/details/10...

2020-04-17 23:43:49 314

原创 基于Hadoop生态的离线项目梳理

一、离线项目整体技术二、离线项目功能演示三、离线项目步骤处理一、离线项目整体技术对于Hadoop离线项目来说:1、存储存储在Hadoop集群2、Hive计算(面试的时候问你Hive的认识,如果你说就是写sql,基本人没了)使用MapReduce对数据进行清洗,清洗后的数据存储在hdfs上,在Hive中创建一张分区表,分区字段(day=20200416),清洗完的数据需要使用:...

2020-04-16 15:52:00 385

原创 大数据调度平台之Rundeck生产实践

一、项目回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、项目回顾...

2020-04-14 11:11:44 1131

原创 剑指数据仓库-项目篇(四) - DWS层&&ADS层指标计算

一、项目回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、项目回顾https://blog.csdn.net/SparkOnYarn/article/details/105454067二、ODS --> DWD层是怎么做的选择ruozeda...

2020-04-12 20:57:54 3105

原创 Shell脚本入门及案例

一、Shell脚本入门二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、Shell脚本入门需要的基础:Linux命令1、创建/opt/shell目录,在其下创建一个简单的shell;[root@hadoop001 shell]# cat hellowor...

2020-04-12 18:18:59 507

原创 剑指数据仓库-项目篇(三) - 数据建模的三种模型&&ods层到dwd层介绍

一、上次课回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、上次课回顾https://blog.csdn.net/SparkOnYarn/article/details/105430370主要讲了ERP的一些模块(基础信息维护、采购、销售、零售流程维...

2020-04-11 20:50:06 4658

原创 剑指数据仓库-项目篇(二) - 数仓的各项理论知识&&订单表设计案例

一、上次回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、基础资料2.3、商品管理2.4、采购管理2.5、销售管理2.6、零售管理三、ERP系统核心-仓库一、上次回顾https://blog.csdn.net/SparkOnYarn/article/details/105388526简单回顾:基础资料、商品类别(SKU)、供应商、商家+用户、采购流程、销售 仓库 ...

2020-04-10 16:11:23 756

percona-xtrabackup-2.4.24-Linux-x86-64.glibc2.12-minimal.tar.gz

xtrabackup全量备份包,只需要解压后,/etc/profile配置文件bin目录位置source生效后即可使用,亲测适用于mysql5.6、mysql5.7,这也是市面上最主流的mysql使用版本,有问题私聊作者

2023-02-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除