自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kayden888

大数据专家

  • 博客(10)
  • 收藏
  • 关注

原创 flink总结

阅读数974概述在本文中,分为以下几个部分:第一部分:Flink 中的核心概念和基础篇,包含了 Flink 的整体介绍、核心概念、算子等考察点。第二部分:Flink 进阶篇,包含了 Flink 中的数据传输、容错机制、序列化、数据热点、反压等实际生产环境中遇到的问题等考察点。第三部分:Flink 源码篇,包含了 Flink 的核心代码实现、Job 提交流程、数据交换、分布式快照机制、Flink SQL 的原理等考察点。Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Fli

2022-06-19 23:18:43 1022

原创 JVM总结

JVM面试一、Part 11、JVM垃圾回收的时候如何确定垃圾?是否知道什么是GC Roots什么是垃圾?内存中已经不再使用到的空间就是垃圾要进行垃圾回收,如何判断一个对象是否可以被回收引用计数法:java中,引用和对象是由关联的。如果要操作对象则必须用引用进行。因此很显然一个简单的办法是通过引用计数来判断一个对象是否可以回收,简单说,给对象中添加一个引用计数器,每当有一个地方引用它,计数器加1,每当有一个引用失效时,计数器减1,任何时刻计数器数值为零的对象就是不可能再被使用的,那

2022-05-10 22:45:27 135

原创 avro学习

Apache Avro定义:avro是apache的一个子项目,是一个高性能序列化数据传输框架,采用json格式,数据结构丰富。解决的问题是:在海量数据传输过程中,能够提升数据传输性能应用场景:接收数据,发送kafka:(1)序列化数据传输​ 只传输具体数据,不传输schema{“name”:“xiaoli”,“age”:“20”,“address”:"北京}类似于这种:xiaoli,20,北京(2)序列化存储本身就是字节数据,省去了将数据转换成字节数据存储的操作优点高性能序

2021-06-06 21:12:40 372

原创 8.分布式计算平台Spark:StructStreaming

分布式计算平台Spark:StructStreaming一、重点SparkStreaming基本原理本质还是SparkCore:基于RDD的离线批处理原理:划分微小时间单位的批处理ReceiverTask:将源源不断的数据流划分Block:默认200ms将每个Block的数据缓存在Executor的内存中将位置反馈给DriverDriver等到Batch时间:1s区别:Core按照触发函数来触发job的,按照时间来触发job的DStream:离散的数据流

2021-03-20 22:09:27 220

原创 6.分布式计算平台Spark:离线综合案例

分布式计算平台Spark:离线综合案例一、重点SparkSQL使用开发接口DSL:使用函数来对表进行处理,类似于RDD的编程,表的体现:DF、DSSQL语法函数:select、where、groupBy、orderBy、limit、aggRDD的函数:map/filter/flatMapSQL:使用SQL语句来实现对表的处理,类似于Hive的编程,表的体现:DF/DS注册成视图、Hive表step1:将数据集注册为视图step2:通过SQL语句进行处理UDF函

2021-03-20 22:08:13 299

原创 5.分布式计算平台Spark:SQL(二)

分布式计算平台Spark:SQL(二)一、重点SparkCore数据源Hadoop系列的数据源:Spark是调用了Hadoop的类来实现InputFormat:sparkContext.newAPIHadoopRDD(输入类,K,V)TableInputFormat封装了:表的对象【定义传递了表名】、Scan对象+Filter【根据查询条件】可以自定义scan对象,传递对表执行了scan操作,读取到所有的RowKey的数据【ResultScanner】将所有Row

2021-03-20 22:07:41 129

原创 4.分布式计算平台Spark:SQL(一)

分布式计算平台Spark:SQL(一)一、重点Spark中RDD的常用函数分区操作函数:mapPartitions、foreachPartition功能:与map和foreach基本功能一致,这两个函数是对分区进行操作的应用:对RDD数据处理时,需要构建资源时重分区函数:repartition、coalesce功能:调节RDD分区的个数应用:repartition实现调大、coalesce降低分区个数聚合函数:reduce/fold/aggregate分布式聚合

2021-03-20 22:07:06 155

原创 3.分布式计算平台Spark:Core(二)

分布式计算平台Spark:Core(二)一、重点Spark集群环境开发流程:SparkCore、SparkSQL、SparkStreamingstep1:在IDEA中开发代码基于本地模式测试代码逻辑step2:打成jar放入HDFS为什么要放入HDFS存储需要实现在任何一台机器提交代码,都可以读取到对应的jar包step3:通过调度工具来进行自动化调度运行集群环境StandaloneYARN提交程序到集群spark-submit用法

2021-03-20 22:06:34 112

原创 hive启动metastore报错

hive启动metastore报错:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for user ‘root’@‘node03’ to database ‘hive’错误原因如下:解决步骤: 首先进入msql命令行msql -uroot -p********* 执行如下操作:​ 注意这句要根据自己的数据库名活用:grant all on 数据库.* to ‘用户名’@’%’ id

2021-02-04 17:01:43 535

原创 JSON

一.JSON的格式介绍1.1 JSON数据及格式【1】JSON数据及作用JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。【2】JSON数据的3种格式1.2简单json解析json解析方式:org.jsonj

2021-02-02 14:05:32 275 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除