- 博客(184)
- 收藏
- 关注
原创 FlinkCDC 2.0
通过自定义反序列化器将输出的能容进行更改确定自定义序列化器输出的内容及格式{"db":"","op":"", //操作类型}//1.获取flink 执行环境//设置并行度.databaseList("cdc_test") //指定数据库(可变形参 可指定多个)// .tableList("cdc_test.user_info") //指定表名 (以库名.表名 的方式指定)...
2022-08-25 19:36:10
2362
原创 Doris启停脚本
echo "------正在启动Doris集群------"echo "------正在停止Doris集群------"echo "------启动BROKER------"echo "------停止BROKER------"echo "------启动FE集群------"echo "------启动BE集群------"echo "------停止BE集群------"echo "------停止FE集群------"
2022-08-19 21:00:43
1235
原创 HiveSQL用户行为漏斗分析
漏斗分析是一个数据分析模型,它能够科学反映一个业务过程从起点到终点各阶段用户转化情况。由于其能将各阶段环节都展示出来,故哪个阶段存在问题,就能一目了然。该需求要求统计一个完整的购物流程各个阶段的人数,具体说明如下:统计周期指标说明最近1、7、30日首页浏览人数略最近1、7、30日商品详情页浏览人数略最近1、7、30日加购人数略最近1、7、30日下单人数略最近1、7、30日支付人数支付成功人数 1.表结构 2.数据来源 实现1:1)分别查询各个指标的一天数据2)查询7、30天的首页浏览、详情
2022-06-19 19:26:01
1142
原创 hivesql关键字在shell脚本中转义
由于start字段在hive中为关键字 需要使用飘号转义 `start` 但是在执行shell脚本时 飘号``也有其特使含义 所以需要进行二次转义
2022-06-14 21:03:06
717
原创 Dynamic partition strict mode requires at least one static partition column
由于hive处于严格模式使用动态分区时会报错FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict使用shell脚本时报错解决方法1:hive/conf/hive-site.xml添加参数...
2022-06-14 21:00:33
1511
原创 Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.
在hive on spark引擎中 执行带有集合的sql时出现此报错[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause. 解决方法一:切换
2022-06-14 18:45:57
6518
1
原创 hive3.x struct 结构is not null 过滤无效处理
以上对page字段进行过滤null值过滤无效依然显式解决方法1:对结构体内的某个字段进行过滤 解决方法2:此bug已经在hive4.x中修复 可以替换对应源码。或者升级hive
2022-06-14 16:49:39
799
原创 HiveOnSpark
链接:https://pan.baidu.com/s/1LgvdPWQ-VNMlRc2qV4EcRg?pwd=i8n8提取码:i8n81.Hive版本升级1)上传编译后的apache-hive-3.1.2-bin.tar至集群2)解压apache-hive-3.1.2-bin.tar.gztar -zxf apache-hive-3.1.2-bin.tar.gz -C /opt/module/3)将原有的hive进行重命名 mv hive/ hive_bak4)将新安装的.
2022-05-10 16:07:48
615
原创 SparkStreaming
一、Spark Streaming概述1.离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式;实时计算输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。2.批量和流式概念
2022-05-07 19:50:16
400
原创 RDD编程
一、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。RDD经过一系列的transformations转换定义之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果,或者是向存储系统保存数据。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算)。 sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAs...
2022-05-06 16:13:32
667
原创 SparkCore
一、RDD概述1.RDD引入IO流IO流的方式读取数据1、字节流的方式读取数据(一次读取一个字节)InputStream in = new FileInputStream("input")2、字节缓冲流的方式读取数据(把数据缓存起来,批量读取)InputStream in = new BufferedInputStream(FileInputStream("input"))3、一次读取一行的缓存流的方式读取数据BufferedReader reade.
2022-05-05 17:15:20
1058
原创 SparkSQL
一、Spark SQL1.概述Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和DatasetAPI。当计算结果的时候,使用的是...
2022-04-26 22:24:58
747
原创 Spark_Action行动算子
行动算子是触发了整个作业的执行。因为转换算子都是懒加载,并不会立即执行。1.reduce()聚合1)函数签名:def reduce(f: (T, T) => T): T2)功能说明:f函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2.collect()以数组的形式返回数据集1)函数签名:def collect(): Array[T]2)功能说明:在驱动程序中,以数组Array的形式返回数据集的所有元素。3.count()返.
2022-04-25 19:05:45
1599
原创 Spark_Transformation转换算子
RDD整体上分为Value类型、双Value类型和Key-Value类型一、Value类型1.map()映射1)函数签名:def map[U: ClassTag](f: T => U): RDD[U]def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (context, pid, iter
2022-04-25 18:53:58
1269
原创 Spark入门
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。一、Spark运行模式部署Spark集群大体上分为两种模式:单机模式与集群模式大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,后续直接按照集群模式部署Spark集群。下面详细列举了Spark目前支持的部署模式。1)Local模式:在本地部署单个Spark服务2)Standalone模式:Spark自带的任务调度模式。(国内常用)3)YARN模式:Spar
2022-04-16 14:32:31
957
原创 Scala
0、为什么学ScalaSpark新一代内存及级大数据计算框架,是大数据的重要内容Spark是适用Scala编写的。因此为了更好的学习Spark,需要掌握Scala这门语言Spark的兴起,带动了Scala的发展1、Scala和Java关系Java运行原理 -先编译,再解释 - .java源文件--->编译器(javac)--->.class字节码文件--->JVM(java 不同平台)--->机器指令Scala运行原理 -先编译,再解...
2022-04-03 18:30:33
2178
原创 Scala环境搭建
链接:https://pan.baidu.com/s/1YBBhn-jWsSk2I6aqxkfN4Q?pwd=76sh提取码:76sh一、Windows安装Scala1.安装(1)首先确保JDK1.8安装成功(2)下载对应的Scala安装文件scala-2.11.8.zip(3)解压scala-2.11.8.zip,(4)配置Scala的环境变量注意1:解压路径不能有任何中文路径,最好不要有空格。注意2:环境变量要大写SCALA_HOME2.测试需求:定..
2022-04-03 15:59:36
612
原创 Hadoop 3.1 2.x新特性之集群间数据拷贝
集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/hello.txt // 推 pushscp -r root@hadoop103:/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/hello.txtroot@hadoop105:/ //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。2)采用...
2022-04-02 15:05:46
2221
原创 Hadoop 3.1 2.x新特性之har归档
小文件存档1)案例实操(1)需要启动YARN进程[atguigu@hadoop102 hadoop-2.7.2]$ start-yarn.sh(2)归档文件把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/atguigu/output路径下。...
2022-04-02 14:52:00
3765
1
原创 Sqoop
1、下载并解压1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/链接:https://pan.baidu.com/s/17eomUVD3D5gCxJ2WVV9ZDQ?pwd=ux3q提取码:ux3q链接:https://pan.baidu.com/s/1nw1X-evuZVHmJMdfiDJuSA?pwd=gypl提取码:gypl2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.g..
2022-04-01 16:16:56
508
原创 Mysql安装
mysql链接:https://pan.baidu.com/s/1-PAtXYtiqIkQo6ZLFiF6iA?pwd=k7xn提取码:k7xn一、Mysql安装配置1.卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉)rpm -qa | grep -i -E mysql\|mariadb |xargs-n1 sudorpm -e --nodeps2.将安装包和JDBC驱动上传到/opt/software01_mysql-community-co...
2022-04-01 15:58:44
854
原创 Kafka压力测试
1)Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2)KafkaProducer压力测试(1)在/opt/module/kafka/bin目录下面有这两个文件。我们来测试一下bin/kafka-producer-perf-test.sh --topic ..
2022-03-29 19:17:55
2628
原创 项目Flume组件
1.组件选择1)Source(1)Taildir Source相比Exec Source、Spooling Directory Source的优势TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。Spooling Directory Source监控目录,不支持断点续传。(2)batchSize大小..
2022-03-29 19:11:22
290
原创 集群所有进程查看脚本
1)在bin目录下创建脚本xcall.shvim xcall.sh2)在脚本中编写如下内容#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"done3)修改脚本执行权限chmod777 xcall.sh
2022-03-29 16:18:39
199
原创 测试日志生成
1、日志启动1)代码参数说明// 参数一:控制发送每条的延时时间,默认是0Long delay = args.length > 0 ? Long.parseLong(args[0]) : 0L;// 参数二:循环遍历次数int loop_len = args.length > 1 ? Integer.parseInt(args[1]) : 1000;2)将生成的jar包log-collector-0.0.1-SNAPSHOT-jar-with-dependencies
2022-03-29 16:15:54
1092
原创 Hadoop参数调优
1)HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60
2022-03-29 15:05:10
349
原创 Hadoop基准测试
基准测试非常重要1) 测试HDFS写性能测试内容:向HDFS集群写10个128M的文件hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2022-03-29 13:51:42,252 INFO sasl.SaslData...
2022-03-29 14:04:38
576
原创 Hadoop LZO压缩配置
1.压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。Hadoop支持LZO0. 环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-devel au
2022-03-28 17:56:35
896
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人