Spark on yarn-CSDN博客

原创主从复制1

1

2023-10-23 15:52:46 103

原创保姆级教程：xtrabackup全量备份主库+从库恢复+主从复制

1、xtrabackup软件安装2、全量备份主库数据3、从库恢复数据4、开启二进制bin_log5、主从复制关系搭建

2023-02-21 22:22:09 923

原创 Linux云服务器升级MySQL5.7至MySQL8.0.23

一、背景介绍二、正式安装部署一、背景介绍1、由于漏洞扫描，MySQL5.7版本扫描出上百个漏洞，也不大清楚漏洞扫描工具的机制，于是就直接将MySQL5.7升级至MySQL8.0.23；访问公司数据库也都需要vpn，可能我的版本有问题，使用grant all privileges on . to ‘root’@‘password’ identified by ‘password’; 把之前的%权限给取消掉了，但是使用远程工具navicat连接还是有问题；注意：记得全量备份数据库，因为我都是使用二进制安

2021-07-21 17:16:05 476

原创 Linux下挂载腾讯云硬盘

1、参照官方文档：https://cloud.tencent.com/document/product/362/57452、实际在linux上的操作：fdisk -l：查看磁盘名称和回显信息-回显信息表示当前云服务器共有2块磁盘，/dev/vda–>系统盘和/dev/vdb–>新增的数据盘；第二步：fdisk /dev/vdb，进入这个分区，输入m是查看这个分区下的信息第三步：按n开始新建分区，p表示主要分区，e表示延申分区；我们输入p新建一个主分区，主分区选择1，接着开始选

2020-12-04 17:51:24 234

原创 Linux下安装postgresql-11.7并使用navicat进行远程连接

一、CentOS6.5上安装postgresql-11.71.1、创建data、log目录 && 配置环境变量1.2、初始化数据库二、使用Navicat for postgresql远程连接数据库一、CentOS6.5上安装postgresql-11.71、进入官网，下载source源码包：网址：https://www.postgresql.org/ftp/source/v11.7/使用wget进行下载：wget https://ftp.postgresql.or

2020-06-27 21:46:18 1238

原创大数据调度平台之-Azkaban

一、Spark-Core（三）回顾1.1、Spark on yarn的运行方式二、Shuffle的剖析2.1、2.1、IDEA下使用repartition和coalesce对用户进行分组2.2、coalesce和repartition在生产上的使用2.3、reduceByKey和groupByKey的区别2.4、图解reduceByKey和groupByKey2.5、reduceByKey和groupByKey的源码&&aggregateByKey2.6、collect

2020-06-13 17:45:34 2092

原创 Spark-Core(四) - Shuffle剖析&&ByKey算子解析&&Spark中的监控&&广播变量、累加器

一、Spark-Core（三）回顾1.1、Spark on yarn的运行方式二、Shuffle的剖析2.1、遇到action产生job2.2、job产生stage2.3、rdd中的cache2.4、Spark-shell中测试rdd缓存 && StorageLevel2.5、Spark-Core中的框架选择（MEMORY_ONLY）2.6、recomputing重算概念2.7、Spark中的宽窄依赖三、回顾Hadoop中的Yarn3.1、 Spark on

2020-06-13 12:02:21 469

原创 Spark-Core(三) - Stage剖析&&Spark on yarn的两种模式

一、Spark-Core（二）回顾二、Stage剖析2.1、遇到action产生job2.2、job产生stage2.3、rdd中的cache2.4、Spark-shell中测试rdd缓存 && StorageLevel2.5、Spark-Core中的框架选择（MEMORY_ONLY）2.6、recomputing重算概念2.7、Spark中的宽窄依赖三、Spark的运行架构（重要指数五颗星）3.1 总结3.2 Cluster Mode Overview一、S

2020-06-11 16:41:03 432

原创 Spark-Core(二) - LogApp日志数据的解析&&Spark的运行架构

一、Spark-Core基础篇回顾二、Spark如何进行大数据的逻辑处理2.1、入门代码遇到的一个简单错误2.2、求得买个域名下的流量之和2.3、每个省份访问次数的TopN（生产上边界值的处理）三、Spark的运行架构（重要指数五颗星）3.1 总结3.2 Cluster Mode Overview一、Spark-Core基础篇回顾1、为什么选择Spark？Fast：10倍于disk磁盘、100倍于memory内存Easy code：编码容易、交互式的命令行interactiv

2020-06-10 17:20:05 316

原创大数据知识阶段总结（一）

一、RDD常用算子再次实验一、RDD常用算子再次实验1、准备20-30秒的自我介绍，有特色些的2、画出你们的大数据架构，针对架构提问，如何做到精准一次、小文件规避？MapReduce离线架构图，有哪些环节，什么到什么地方有哪些东西，为什么要这么选择这个架构；为什么要选择MapReduce或者spark；不要具体落地到某个业务场景中去；要搞成一个通用形态的架构，比如数据到hdfs采用什么格式，选择什么压缩方式？为什么要选择压缩，压缩带来的好处是什么，生产需要分清楚是什么样的场景？生产上小文件的规

2020-06-09 12:20:23 396

原创 Spark基础篇(六) - IDEA开发Spark代码

一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量的TopN && Spark-Core实现2.2、Spark-Core求出平均年龄2.3、求男女人数、最低、最高身高三、IDEA整合Maven搭建Spark应用程序3.1、案例开发&&上传jar包到服务器&&测试数据准备3.2、结果输出到控制台&&HDFS目录3.3、处理多个输入文件&&输入文件规则匹配&&

2020-06-08 19:45:20 587

原创 Spark基础篇(五) - RDD的高级算子&&IDEA搭建、开发Spark应用程序

一、RDD常用算子再次实验二、JOIN在Spark Core中的使用2.1、使用Spark-Core进行词频统计分析2.2、RDD中subtract && intersection && cartesian使用详解三、IDEA整合Maven搭建Spark应用程序一、RDD常用算子再次实验1、新建一个数据集：scala> val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9))a: org.apache.spark

2020-06-08 12:39:26 447

原创 Spark基础篇(四) - RDD的创建和算子使用

一、SparkContext、SparkConf内容回顾二、RDD创建的两种方式2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、SparkContext、SparkConf内容回顾1、SparkContext、SparkConf、spark-shell中一些常用参数介绍2、开发程序前

2020-06-07 10:48:29 610

原创 Spark基础篇(三) - 创建RDD的前提（先创建SparkContext、SparkConf）

一、RDD五大特性回顾二、创建Spark应用程序前需要创建SparkContext2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、RDD五大特性回顾面试相关：1、RDD是什么？为什么是分布式？为什么是弹性？谈一下你对RDD的理解？结合RDD.scala进行理解；RDD五大特性与源码

2020-06-04 17:38:18 976

原创 Spark基础篇(二) - RDD的理论知识

一、什么是RDD二、RDD的源码定义三、RDD五大特性详解四、RDD五大特性和源码的对应关系五、图解RDD一、什么是RDD在Spark中，建议大家面向DF/DS编程，但是不管怎么滴，RDD的理解对于后续使用高级别的API使用会更好。RDD：Resilent Distributed Dataset，弹性分布式数据集，是Spark中最基本的数据抽象（the basic abstraction in spark）作用：让开发者大大降低开发分布式应用程序的门槛及提高执行效率。直接GitHub上查看

2020-06-04 15:04:39 225

原创 Linux上挂载的系统盘符满了该怎么处理

1、生产出现如下案例情况，安装的应用和数据全部在了系统盘，使用率此时已经到了79%；Hive、HDFS的存储目录都在/dev/vda1；如何解决？mv移动占内存大的文件（一般是log文件），然后做个软连接；注意软连接使用的目录权限；如何理解软连接？就比如windows上D盘写满了，数据迁移到E盘，然后建个快捷键在D盘相同位置，那么程序还是读取D，自动跳转到E；也好比windows上的快捷键，正常建到桌面公司部署了CDH平台的话也可以直接在上面做数据存储目录的修改：修改后重启集群即

2020-06-04 11:20:49 1242

原创 Spark基础篇(一) - 概述&&源码编译

第一章：MapReduce的局限性–>Spark的产生1.1 各个框架单独为战&&使用Spark框架做对比第二章：Spark概述及特点2.1 四大特性（Speed、Ease Of Use、Generality、Runs Everywhere）2.2 Spark各个版本介绍第三章：自定义编译Spark3.1 Spark目录解读3.2 在Spark客户端上完成一个wordcount第一章：MapReduce的局限性–>Spark的产生繁杂，不管是开发

2020-06-03 17:32:50 299

原创 Scala实战作业（一）

一、Scalikejdbc操作MySQL数据库1.1、通过SQL准备一张表，有id,name,age三个字段1.2、通过Scalikejdbc往user表中添加10条记录1.3、通过Scalikejdbc查询表中所有的数据1.4、通过Scalikejdbc将id=8的数据的age加10一、Scalikejdbc操作MySQL数据库1.1、通过SQL准备一张表，有id,name,age三个字段1.2、通过Scalikejdbc往user表中添加10条记录1.3、通过Scalikejdbc查

2020-06-02 13:30:08 586

原创 Scala实战三

一、上次课回顾二、ScalaJDBC连接Scala中的类型&&转换三、函数、方法3.1 函数的定义3.2 函数的调用3.3 函数循环表达式四、面向对象编程4.1 面向对象-从定义类开始4.2 定义SparkConf4.3 构造器（主构造器和附属构造器）一、上次课回顾https://blog.csdn.net/SparkOnYarn/article/details/106384630讲了函数完整的定义，定义函数的入参，每一个参数的定义；如果有返回值，

2020-06-01 23:27:52 429

原创 Tableau第四次课

一、Tableau制作标靶图1.1、二月份电量销售额完成情况1.2、参考线与参考区间二、Scala的变量Var、Val2.1、甘特图的概念与用途2.2、交货延期情况的甘特图2.3、不同的日期类型选择三、创建超市不同子类别产品的盈亏瀑布图四、本次课程作业一、Tableau制作标靶图1.1、二月份电量销售额完成情况1、筛选统计周期为2月份的；省市示例数据拖拽到行单元格，当期值拖拽到列单元格；点击右下角，添加参考线；2、范围有三种：整个表（比如有南北两区，选择整个表不会理会分区，还

2020-05-31 18:18:01 524

原创 Scala实战二

一、上次课回顾二、Scala的变量Var、Val类型转换三、函数、方法3.1函数的定义3.2函数的调用3.3函数循环表达式一、上次课回顾1、注意源数据与元数据的区别，源数据对于Mapreduce来说的话就相当于是输入的数据；而元数据是描述数据的数据2、Hive对应到MySQL元数据库中的一些表，tbls dbl表的关联关系3、集群数据规模的评估，多少机器、多少业务线、几副本、数据要存几年，拿到磁盘的空间，需要预留30%-50%的空间，为了避免数据突增；比如系统OOM，mapred

2020-05-27 16:25:26 375

原创 Tableau第三课

一、上次课程回顾二、基本表2.1、基本表的使用2.2、凸显表的使用三、树形图3.1、不同类型电影数量与票房3.2、香港不同地区酒店数量与价格四、气泡图与词云4.1、不同类型电影数量与票房4.2、动作电影动态气泡图4.3、词云图制作五、本次课程作业一、上次课程回顾https://blog.csdn.net/SparkOnYarn/article/details/106353978二、基本表2.1、基本表的使用就相当于是一个excel表，把地区（酒店数据）拖拽到

2020-05-27 14:13:39 1693

原创 Tableau第二课

一、上次课程回顾二、Tableau界面介绍2.1、数据导入界面2.2、数据源界面2.3、工作表界面三、Tableau绘制条形图3.1、各地区酒店数量3.2、各地区酒店均价3.3、价格等级堆积图四、Tableau绘制直方图4.1、官方图概念与用途4.2、创建评分直方图五、本次课程作业一、上次课程回顾https://blog.csdn.net/SparkOnYarn/article/details/106334256二、tableau完成数字格式的拆分对于一列数据

2020-05-26 22:51:37 973

原创 Tableau第一课

一、Tableau下载与安装二、Tableau界面介绍2.1、数据导入界面2.2、数据源界面2.3、工作表界面三、Tableau绘制条形图3.1、各地区酒店数量3.2、各地区酒店均价3.3、价格等级堆积图四、Tableau绘制直方图4.1、官方图概念与用途4.2、创建评分直方图一、Tableau简介、下载与安装官网：https://www.tableau.com/Harness the power of your data（利用数据的力量）. Unleash

2020-05-26 12:30:36 587

原创 JVM系列（一）

一、Why study jvm二、Linux上使用jvm2.1、常用压缩格式介绍2.2、压缩的配置使用&&运行wordcount案例三、Hive中的UDF函数四、本次课程涉及面试题一、Why study jvm无论是Java还是大数据，都会面试JVM相关的信息，无论是性能调优还是参数监控，不管是hadoop系列还是spark系列，它都是跑在JVM之上的，就像hadoop和spark运行，一用就OOM，不同的异常信息采用不同的解决方案，JVM在生产上面是非常非常重要的，最

2020-05-15 13:57:23 497

原创实战班-Hive高级（二）

一、上次回顾二、Hive SQL的执行流程2.1、常用压缩格式介绍2.2、压缩的配置使用&&运行wordcount案例三、Hive中的UDF函数四、本次课程涉及面试题一、上次回顾https://blog.csdn.net/SparkOnYarn/article/details/105706114二、Hive SQL的执行流程1、场景：数据量不大，但是使用Hive SQL执行起来比较慢；Hive中常用的SQL语句？select yyy,聚合函数 from xxx

2020-05-13 15:29:34 212

原创 Hadoop之LZO压缩&&HUE部署

一、需求二、Hadoop配置LZO压缩&&分片和不分片2.1、编译hadoop-lzo2.2、压缩的配置使用&&运行wordcount案例三、HUE部署3.1、使用HUE访问HDFS3.2、使用HUE访问HDFS一、需求需求一：使用编译过支持压缩的Hadoop，使用LZO压缩创建一个文本，压缩以后大小是200M，启用分片&&不启用分片；需求二：使用HUE访问HDFS，使用HUE查询Hive二、Hadoop配置LZO压缩&am

2020-05-12 18:38:56 335

原创实战班-Hive高级（一）

一、项目回顾二、把ADS层的数据导到MySQL2.1、如何在ADS层做指标计算2.2、分组求TopN三、遇到的问题一、项目回顾https://blog.csdn.net/SparkOnYarn/article/details/105460505...

2020-05-11 17:59:52 291

原创编译hadoop2.6.0-cdh5.7.0源码使其支持压缩

一、前置环境要求1.1、部署jdk1.2、部署maven1.3、部署protobuf1.4、解压hadoop源码开始编译二、数仓项目作业一、前置环境要求直接使用hadoop2.6.0-cdh5.7.0.tar.gz的包部署的hadoop集群在生产上是不支持压缩的，生产上的hadoop是需要使用压缩的，故需要下载hadoop的源码编译使其支持压缩；下载hadoop2.6.0-cdh5.7.0-src.tar.gz，使用maven编译，使其支持压缩，并成功进行伪分布式集群部署验证压缩。

2020-05-10 19:50:09 196

原创剑指数据仓库-项目篇（五）

一、进行指标计算2.1、案例：抽取数据过程中遇到的问题2.2、如何在ADS层做指标计算2.3、分组求TopN2.4、Hive的行转列&&Dbeaver数据导出三、部署Rundeck遇到的问题（Linux的OOM机制）一、进行指标计算使用SQOOP把Hive中ads_bill_sum_count这张表的数据导入到MySQL中dw数据库中的ads_bi...

2020-05-04 12:20:08 545

原创 Docker上安装部署Superset

一、Docker上安装部署Superset二、Superset配置MySQL的数据源一、Docker上安装部署SupersetDocker一定要在CentOS7上的机器进行部署，否则会出现问题1、查看正在运行中的镜像[root@hadoop001 ~]# docker psCONTAINER ID IMAGE COMMAND ...

2020-05-02 22:56:43 1299

原创 MySQL中的行转列、列转行、分组求TopN

一、MySQL的行转列二、MySQL的列转行三、MySQL中分组求TopN一、MySQL的行转列案例一：数据准备：1、创建salgrade学生成绩表：create table salgrade(name varchar(20) comment '学生姓名',subject varchar(20) comment '学科',score float comment '成绩') e...

2020-04-29 17:04:53 621

原创 Superset的安装部署

一、Superset的安装部署1.1、安装Python3的环境1.2、安装EPEL源并安装superset必备的包1.3、安装Python3的virtualenv并建立superset的env1.4、在env中安装superset1.5、安装superset的数据包1.6、配置superset1.7、配置superset1.8、MySQL中创建superset数据库1.8.1...

2020-04-28 13:35:59 2131 2

原创 MySQL主从复制及生产如何采集至大数据

一、本次课程主题二、MySQL单节点部署三、离线项目步骤处理一、本次课程主题数据库：MySQL、PostgreSQL、Cassandra1、搭建部署单节点2、主从架构（读写分离）及部署3、故障案例4、MySQL如何落地到大数据平台5、拓展思考：二、MySQL单节点部署https://blog.csdn.net/SparkOnYarn/article/details/10...

2020-04-17 23:43:49 314

原创基于Hadoop生态的离线项目梳理

一、离线项目整体技术二、离线项目功能演示三、离线项目步骤处理一、离线项目整体技术对于Hadoop离线项目来说：1、存储存储在Hadoop集群2、Hive计算（面试的时候问你Hive的认识，如果你说就是写sql，基本人没了）使用MapReduce对数据进行清洗，清洗后的数据存储在hdfs上，在Hive中创建一张分区表，分区字段(day=20200416)，清洗完的数据需要使用：...

2020-04-16 15:52:00 385

原创大数据调度平台之Rundeck生产实践

一、项目回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、项目回顾...

2020-04-14 11:11:44 1131

原创剑指数据仓库-项目篇(四) - DWS层&&ADS层指标计算

一、项目回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、项目回顾https://blog.csdn.net/SparkOnYarn/article/details/105454067二、ODS --> DWD层是怎么做的选择ruozeda...

2020-04-12 20:57:54 3105

原创 Shell脚本入门及案例

一、Shell脚本入门二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、Shell脚本入门需要的基础：Linux命令1、创建/opt/shell目录，在其下创建一个简单的shell；[root@hadoop001 shell]# cat hellowor...

2020-04-12 18:18:59 507

原创剑指数据仓库-项目篇(三) - 数据建模的三种模型&&ods层到dwd层介绍

一、上次课回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、数仓分层-星型模型2.3、数仓分层-雪花模型2.4、数仓分层-星座模型三、ERP项目架构3.1、数仓分层流程图一、上次课回顾https://blog.csdn.net/SparkOnYarn/article/details/105430370主要讲了ERP的一些模块（基础信息维护、采购、销售、零售流程维...

2020-04-11 20:50:06 4658

原创剑指数据仓库-项目篇(二) - 数仓的各项理论知识&&订单表设计案例

一、上次回顾二、数仓的各项理论知识2.1、什么是数据仓库2.2、基础资料2.3、商品管理2.4、采购管理2.5、销售管理2.6、零售管理三、ERP系统核心-仓库一、上次回顾https://blog.csdn.net/SparkOnYarn/article/details/105388526简单回顾：基础资料、商品类别（SKU）、供应商、商家+用户、采购流程、销售仓库 ...

2020-04-10 16:11:23 756

percona-xtrabackup-2.4.24-Linux-x86-64.glibc2.12-minimal.tar.gz

空空如也