自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_45409791的博客

原创总结0010

3.将数据推入到前置数据库MySQL中（提前建好表），使用datax，kafka，canal等组件进行数据采集，将数据存放在数仓的ODS层中。根据id进行分组，count(1)进行计数统计，联合collect_list(name_struct()) 将组内的数据合并成一条数据。数据采集的时候遇到一个问题：有一个数据量很大的表，我在按天进行增量数据采集的时候，这个表有数据更新时间字段，是精确到秒的。如果使用的是inner join 那么只返还连接字段相等的行，有一些什么都没有的人的信息会消失，违背初衷。

2022-09-07 15:23:57 242 1

原创对数仓和中台的理解

阿里云：分布式计算：Max Compute分布式存储系统：盘古资源调度框架：伏羲(mesos,yarn类似)数据集成，数据开发（Data Studio），运维中心(生产环境)，数据质量，数据服务简单模式：开发生产空间一体标准模式：空间隔离，需要提交，不互相影响。.........

2022-08-17 23:10:33 2018

原创 Kafka／Canal

1.kafka 发布与订阅的分布式（distributed）消息系统，让实时数据在之中排队，缓冲减压，存储实时数据2.消息队列的应用场景：峰值压力缓冲3.producer 数据的生产者consumer 消息的消费者broker kafka集群的server负责处理消息读写请求，存储数据topic 消息队列，读写数据的单位4.一个topic分成多个partition（为了做分布式），分区内部消息强有序分区之间是无序的，每个消息都有一个序号叫offset。.........

2022-08-03 20:51:23 1041

原创 Flink--Join以及Flink函数

class写类，里面方法的运行需要创建对象object用来写main函数，代码可以运行，方法可以直接用方法名调用/*** eval 只能叫这个方法名* @return* 字符串切分*/}}

2022-08-03 20:49:23 728

原创 Flink状态和 Exactly Once

checkpoint是flink用于持久化flink状态的机制。flink会定时将flink计算的状态持久化到hdfs中。开启checkpint的方法：代码中或者源码中。valueState状态：存储之前的计算结果。

2022-08-02 22:09:19 252

原创 Flink-shell

flink-shell相关知识点

2022-08-02 14:57:36 880

原创 Flink优化的方方面面

上游生产数据速度比下游消费数据速度大，flink会发生反压，反压会从下游向上游传播，直到sourcetask降低拉去数据速度，避免flink任务执行报错。

2022-08-02 14:56:56 1266

原创 Flink-SQL

1.抽象出来一个动态表，并未进行存储，是Flink支持流数据的tableAPI和sql的核心概念，随时间变化的，查询动态表会生成一个连续的查询，结果是一个动态表2.hive进入命令行需要先启动元数据服务，在查数据的时候数据是不变的3.除非是有界流，否则连续的查询是不会停止的4.将流转化（定义）成动态表，在动态表上计算一个连续的查询，生成一个新的动态表，最后转换成流，连续查询从不停止，会根据输入表上的更新对结果表进行更新。......

2022-08-02 14:21:31 2968

原创 Flink-独立集群/Yarn

flink独立集群、yarn

2022-07-30 15:02:19 440

原创 Flink依赖汇总

flink常用依赖

2022-07-29 22:04:30 597

原创 Flink前期代码结构

数据库中的数据根据解析数据时是否结束循环来判断有界无界流，但都采用流处理模式Unit={//创建flink环境valenvDataStream[String]=env.addSource(newMysqlSource)//传接口的子类，接收上游的数据mysqlDS//处理上游传来的数据.sum(1).print()env.execute()//执行flink}//继承SourceFunction[String]接口，指定返回类型，实现方法/**Unit={...

2022-07-28 09:52:12 311

原创 Flink时间和窗口

代码完成，本地（提交任务的地方）构建数据流程图，将图提交给jobManager并拆分多个task，进行任务调度设置flink任务的并行度，在代码中设置，在提交任务时设置（-p加上设置的并行度）（源码优先级高）,但是socket的并行度只能是1一个并行度占用一个资源槽，和task无关，task可以共享资源可以对每一个算子设置名字，id，和并行度。...

2022-07-28 09:51:26 109

原创 spark写sql的方式

1.idea的把代码编写好打包上传到集群中运行1.1依赖和插件 <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.12</version>

2022-07-28 09:50:42 919

原创 spark（standalone,yarn）

Executor执行器，task在其中执行，缓存数据Task自己写的spark算子的代码逻辑封装的线程对象新建SparkContext程序，spark的控制程序，负责将task发送到executor中去执行executor的数量，内存，和core都可以手动设置--executor-cores1(其数量决定同时可以执行的task的数量).........

2022-07-28 09:50:08 397

原创 Spark_Core

网络

2022-07-20 15:24:59 485

原创 Spark_DSL

Spark_DSL。

2022-07-20 15:24:18 1603

原创统计偏科最严重的前100名学生

Scala统计最偏科的前100名学生

2022-07-13 10:02:27 120

原创 Scala学习总结

1、Scala是把函数式编程和面向对象编程思想结合的一门编程语言2、大数据计算引擎spark是由Scala编写的（学习初衷）3、Scalable Language ：可扩展的语言4、特点：（1）多范式面向对象函数式编程（2）兼容Java 类库调用互操作（3）简洁代码行短，自动类型推断，抽象控制5、在函数式编程中，把函数传来传去6、Java编程与Scala编程都会被先编译成class文件，然后放到jvm上运行，但Scala无法反编译（Scala在Java的基础上做了一次

2022-07-12 21:32:12 942

原创 Scala连接Mysql数据库

Scala连接MySQL

2022-07-12 10:41:09 629

原创电商项目常见连续登录，消费，日期等问题

一.数据，建表语句二.计算逻辑1.按照用户和日期进行分组，求每用户每天的消费2.根据用户id进行开窗按照日期进行排序，如果日期减去序号数是相同的说明这几行日期是连续的上表起名为tt1，注意用到日期函数date_sub(tt1.datestr,tt1.rn)临时结果3.统计用户连续交易总额，连续登录天数连续登录开始时间个结束时间以及间隔天数根据id,grep分组后查询列增加count(1)即可得到连续登录天数（代码省略）根据id,grep分组后的datestr列，最小的即为连续登录的开始时间，最

2022-07-06 20:03:36 104

原创自定义UDF函数

自定义UDF函数以及加载到Linux上运行1.引入依赖注意：可能会出现引入依赖失败的情况，在settings文件中修改镜像tab键与空格键的问题，此处用的是tab键开头，此点可能影响打包2.写代码，继承UDF，导包，实现逻辑3.打jar包上传到Linux （后面跟jar包的完整路径）add jar /usr/local/soft/jars/HiveUDF2-1.0.jar;4.使用jar包资源注册一个临时函数create temporary function 函数名 as ‘主类名’

2022-07-06 15:07:16 724

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大学生爱编程 CSDN认证博客专家 CSDN认证企业博客

码龄5年

IP 属地：安徽省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

21: 原创

119万+: 周排名

94万+: 总排名

1万+: 访问

: 等级

219: 积分

4: 粉丝

8: 获赞

1: 评论

38: 收藏

私信

关注

热门文章

最新文章

提示

确定要删除当前文章？

取消删除