- 博客(30)
- 收藏
- 关注
原创 拉链表设计
拉链表从应用场景+实现流程+技术细节方面介绍拉链表:维护历史状态与最新状态数据的一种表#1.应用场景: (1)有一些表的数据量很大,不能经常覆盖 (2)较短有效时间内,同时存在修改和新增两种情况2.实现流程: · 日期记录最新修改时间,用状态值来表示这一时间节点下的状态 通常在数仓的ods层设计一张历史记录表,这张历史记录表就是按照固定的周期从关系型数据库中,把最新的数据给采过来,这张历史数据表在第一次采集的时候会把所有的历史记录采集过来,以后每次的操作都是基于历史记录向下操作
2021-11-17 22:59:10 336 1
原创 拉链表设计
拉链表从应用场景+实现流程+技术细节方面介绍拉链表:维护历史状态与最新状态数据的一种表#1.应用场景: (1)有一些表的数据量很大,不能经常覆盖 (2)较短有效时间内,同时存在修改和新增两种情况2.实现流程: · 日期记录最新修改时间,用状态值来表示这一时间节点下的状态 通常在数仓的ods层设计一张历史记录表,这张历史记录表就是按照固定的周期从关系型数据库中,把最新的数据给采过来,这张历史数据表在第一次采集的时候会把所有的历史记录采集过来,以后每次的操作都是基于历史记录向下操作
2021-11-17 22:51:29 1063
原创 Mapreduce解析
切片:对文件切割,每一个切片对应一个map端 blockSize:128M1.map task进程 首先去启动inputStream,默认的是textinputformat2.③RecordReader 调用read()方法,读取文本切片,读的都是一整行(Hadoop里的内容都是字节,根据分割符,在字节里识别哪一个是行结束的位置)3.读的内容是一对键值对 k:行的起始偏移量,v:行的内容,一读就进入map task 进程,这是一个可以自定义的4.Mapper(),在Mapp.
2021-11-15 23:46:07 1038
原创 数据倾斜----加盐
解决数据倾斜3.4.1 场景描述**数据倾斜:**由于数据分布不均匀,数据集中在某些 SubTask 上,导致部分SubTask 处理数据量特别大,执行时间过长,影响了整个应用程序的执行效率。过多的数据集中在某些 JVM(TaskManager),使得 JVM 的内存资源短缺,导致频繁 GC。严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃解决方式1、数据源的消费不均匀:调整并发度。对于数据源消费不均匀,比如 Kafka 数据源,通常是通过调整数据源算子的并发度实
2021-10-31 21:06:51 718
原创 sparkStreaming 计算wordCount
sparkStreaming 计算wordCount导入pom依赖 <properties> <scala.version>2.12.10</scala.version> <spark.version>3.0.1</spark.version> <spark.scala.version>2.12</spark.scala.version> <kafka.version>2.0
2021-09-12 12:40:03 106
原创 spark SQL join中的一道题
spark SQL join中的一道题package cn.kfc.dem08import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{DoubleType, IntegerType, LongType, StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}case
2021-09-05 20:29:41 67
原创 Spark sql从不同文件中读数据,并写到不同文件中
Spark sql从不同文件中读数据,并写到不同文件中package cn.kfc.dem07//jdbc中读取数据//保存成各种格式import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object JdbcDataSource { def main(args: Array[Stri
2021-09-05 18:41:17 373
原创 Spark读取Mysql
Spark读取Mysqlpackage cn.kfc.dem03import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object jdbcRdd { val getConn=()=>{ DriverManager.getConnection("jdbc:mysql://192.168.6.160:3306/
2021-09-05 17:57:47 758
原创 Spark 将结果写入MySQL
Spark 将结果写入MySQL创建Scala-Maven 工程导入pom依赖(Flink所有可能用到的依赖)<properties> <scala.version>2.12.10</scala.version> </properties> <repositories> <repository> <id>scala-tools.org</id> <n
2021-09-05 17:49:53 1759
原创 Flink Sink(文档、kafka、JDBC、Redis)
Flink Sink创建Scala-Maven 工程导入pom依赖(Flink所有可能用到的依赖)<properties> <scala.version>2.12.10</scala.version> <mysql.version>8.0.11</mysql.version> <flink.version>1.13.0</flink.version> &l
2021-09-05 16:56:33 469 1
原创 MySQL Hive Scala函数大全
MySQL函数大全(字符串函数,数学函数,日期函数,系统级函数,聚合函数)https://blog.csdn.net/alisa_Ge/article/details/109627228?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0.control&spm=1001.2101.3001.4242Hive常用的内置函数实例解析https://blog.csdn.net/and526
2021-09-05 14:19:28 79
原创 Flink Source汇总
Flink Source汇总创建Scala-Maven 工程导入pom依赖(Flink所有可能用到的依赖)<properties> <scala.version>2.12.10</scala.version> <mysql.version>8.0.11</mysql.version> <flink.version>1.13.0</flink.version>
2021-09-05 12:39:10 149
原创 Scala连接Mysql 实现增删改查
创建Maven工程导入pom依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>
2021-07-21 21:28:01 507 1
原创 flume
flume 经典例题:例题1 : 数据监控:第一步:创建配置文件[root@singlery ~]#cd script/flume_job vim flume01.cnf#组件声明a1.sources = s1al.channels = clal.sinks = k1 #初始化数据源a1.sources.s1.type = netcata1.sources.s1.bind = 192.168.6.160al.sources.s1.sort = 6666 #初始化通道 a1
2021-07-15 17:27:31 132
原创 spring+mybatis连接Mysql
创建一个web工程——mywebspringmybatisoracle。项目架构如下:导入pom依赖*<groupId>cn.kgc</groupId> <artifactId>springmvcmybatsis</artifactId> <version>1.0</version> <packaging>war</packaging> <name>springmvcmybat
2021-07-15 00:58:54 377
原创 SQOOP导入数据整理
---------------1. hdfs导入mysql ----mysql中创建表create table sqp_order ( create_date date, username varchar(20), total_volume decimal(10,2) );将hdfs中的数据导入mysqlsqoop export \--connect jdbc:mysql://192.168.6.160:3306/school \--username root \--password
2021-07-11 11:45:29 102
原创 SSM:mybatis连接mysql,实现mysql数据库表的增删改查
SSM:mybatis连接mysql,实现mysql数据库表的增删改查先创建一个maven工程在pom.xml文件中导入数据库依赖包和mybatis依赖包。<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <
2021-07-06 15:05:46 396
转载 Hive常见题
一、什么是Hive,为什么要用Hive,你是如何理解Hive? 面试官往往一上来就一个“灵魂三连问”,很多没有提前准备好的小伙伴基本回答得都磕磕绊绊,效果不是很好。下面贴出菌哥的回答: &nbs
2021-06-27 17:30:17 801
原创 JAVA连接Mysql
本篇使用到的开发工具IntelliJ IDEA,jdk版本为:jdk1.8MySQl版本:5.7.34Java连接Mysql先新键一个Maven项目在pom.xml中放入<groupId>kgc</groupId> <artifactId>mysql</artifactId> <version>1.0</version> <name>mysql</name> <!-- FIXME
2021-06-27 10:36:04 238
转载 Mysql函数大全(字符串函数、数学函数、日期函数、系统函数、聚合函数)
目录 字符串函数 数学函数 日期函数 系统级函数 聚合函数 字符串函数 1.char_length(' '):计算字符串字符的长度 select char_length('abcd我'); 运行结果如下: 2.length(' '):计算字符串的长度。这里需要注意的是,一个汉字长度是3。 select length('abcd我'); 运行结果如下: 3.concat(' ',' ...
2021-06-25 23:55:25 935
原创 JAVA连接Hbase
本篇使用到的开发工具IntelliJ IDEA,jdk版本为:jdk1.8,虚拟机版本为CentOS 7。MySQl版本:5.7.34hadoop 3.1.3HBase版本:2.3.5Java连接Mysql先新键一个Maven项目在pom.xml中放入<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compile
2021-06-25 23:42:46 2129
原创 hadoop+hive+zepplin+zookeeper+hbase任务开启
1.需要先开启hadoop[root@singlery ~]#start-all.sh-------------------------------------16289 NameNode17313 NodeManager16468 DataNode16980 ResourceManager16697 SecondaryNameNode17503 Jps-------------------------------------2.后台开启hive[root@singlery ~]#
2021-06-25 17:24:22 138
原创 hbase安装
Hbase安装第一步 : 解压[root@singlery ~]# cd /opt/download[root@singlery download]# tar -zxvf hbase-2.3.5-bin.tar.gz -C /opt/software/hbase/cd /opt/software/hbase[root@singlery hbase]# mv hbase-2.3.5 hbase235第二步: #配置文件 hbase-env.sh hbase-site.xml[root
2021-06-25 15:58:26 41
原创 zepplin安装
zepplin安装第一步:解压cd /opt/download/[root@singlery download] tar -zxvf zeppelin-0.8.2-bin-all.tgz -C /opt/software/zeppelin[root@singlery software] mv zeppelin-0.8.2 zeppelin082第二步 配置文件 zeepline-site.xml 和 zeepline-env.shcd /opt/softwar
2021-06-25 15:56:37 264 1
原创 zookeeper安装
zookeeper安装 #0、概念: 角色:leader,learner(follower observer),client 状态:looking leading following 选举:过半机制,先启动者为leader 端口:2188 2888 3888第一步:解压cd /opt/download/[root@singlery download] tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/softwa
2021-06-25 15:52:49 45
原创 2021-05-22
反射机制:在运行状态下,动态获取信息,动态生成实例对象和动态调用对象方法的功能java.lang包Class类:反射的核心类:可获取类的属性,方法等信息,生成类的实例Java。lang.reflect包(1)Field类:表示类的成员变量,可来获取和设置类的属性值(2)Methods类:表示类的方法,可用来获取类中的方法信息(3)Constructor类:表示类的构造方法基于反射生成类的实例获取方法:1.Class 类 getConstructor(Class[]parameterType
2021-05-22 16:02:38 143
原创 2021-05-22
解析json字符串package org.example;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;public class Json { public static void main(String[] args) { //json格式转字符串 String data ="{\"c
2021-05-22 15:06:34 423
原创 2021-05-22
Maven 里编写爬虫程序Create New Project---->Maven _---->create from archetype ---->quickstart----->建工程-----> 点击 Enable Auto_import1.下的1.7改为1.82.下添加镜像:org.apache.httpcomponentshttpclient4.5.5添加后为3.点击红色框处,选择左侧Modules,Sources下选择点击应用4. f
2021-05-22 00:48:41 61
原创 字符串比较的方法equals与==
如下这段代码输出结果, 创建几个对象以及内存分布equals()与“==”区别**字符串比较的方法:(1)equals()比较两个字符串的内容是否相同(2)== 比较字符串内存地址是否相等,比较两个字符串是否是同一对象**如下这几段代码输出结果, 创建几个对象以及内存分布//创建一个对象String s1 = "Hello";String s2 = "Hello";System.out.println(s1==s2);//s1和s2都指向字符串池中的"Hello"对象,结果为trueS
2021-05-02 12:11:00 260
原创 获取数组和字符串的长度
获取数组和字符串的长度(length还是length())数组.length 获取数组的长度,是属性字符串.length() 获取字符串的长度,是方法int[] arr = new int[4];System.out.println(arr.length);// 获取数组的长度String str = “1234”;System.out.println(str.length());// 获取字符串的长度数组和字符串都是对象,访问长度都用 length() 方法就好了。为什么
2021-05-02 12:01:12 1335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人