自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 总结0010

3.将数据推入到前置数据库MySQL中(提前建好表),使用datax,kafka,canal等组件进行数据采集,将数据存放在数仓的ODS层中。根据id进行分组,count(1)进行计数统计,联合collect_list(name_struct()) 将组内的数据合并成一条数据。数据采集的时候遇到一个问题:有一个数据量很大的表,我在按天进行增量数据采集的时候,这个表有数据更新时间字段,是精确到秒的。如果使用的是inner join 那么只返还连接字段相等的行,有一些什么都没有的人的信息会消失,违背初衷。

2022-09-07 15:23:57 242 1

原创 对数仓和中台的理解

阿里云:分布式计算:Max Compute分布式存储系统:盘古资源调度框架:伏羲(mesos,yarn类似)数据集成,数据开发(Data Studio),运维中心(生产环境),数据质量,数据服务简单模式:开发生产空间一体标准模式:空间隔离,需要提交,不互相影响。.........

2022-08-17 23:10:33 2018

原创 Kafka/Canal

1.kafka 发布与订阅的分布式(distributed)消息系统,让实时数据在之中排队,缓冲减压,存储实时数据2.消息队列的应用场景:峰值压力缓冲3.producer 数据的生产者consumer 消息的消费者broker kafka集群的server负责处理消息读写请求,存储数据topic 消息队列,读写数据的单位4.一个topic分成多个partition(为了做分布式),分区内部消息强有序分区之间是无序的,每个消息都有一个序号叫offset。.........

2022-08-03 20:51:23 1041

原创 Flink--Join以及Flink函数

class写类,里面方法的运行需要创建对象object用来写main函数,代码可以运行,方法可以直接用方法名调用/*** eval 只能叫这个方法名* @return* 字符串切分*/}}

2022-08-03 20:49:23 728

原创 Flink状态 和 Exactly Once

checkpoint是flink用于持久化flink状态的机制。flink会定时将flink计算的状态持久化到hdfs中。开启checkpint的方法: 代码中或者源码中。valueState状态:存储之前的计算结果。

2022-08-02 22:09:19 252

原创 Flink-shell

flink-shell相关知识点

2022-08-02 14:57:36 880

原创 Flink优化的方方面面

上游生产数据速度比下游消费数据速度大,flink会发生反压,反压会从下游向上游传播,直到sourcetask降低拉去数据速度,避免flink任务执行报错。

2022-08-02 14:56:56 1266

原创 Flink-SQL

1.抽象出来一个动态表,并未进行存储,是Flink支持流数据的tableAPI和sql的核心概念,随时间变化的,查询动态表会生成一个连续的查询,结果是一个动态表2.hive进入命令行需要先启动元数据服务,在查数据的时候数据是不变的3.除非是有界流,否则连续的查询是不会停止的4.将流转化(定义)成动态表,在动态表上计算一个连续的查询,生成一个新的动态表,最后转换成流,连续查询从不停止,会根据输入表上的更新对结果表进行更新。......

2022-08-02 14:21:31 2968

原创 Flink-独立集群/Yarn

flink独立集群、yarn

2022-07-30 15:02:19 440

原创 Flink依赖汇总

flink常用依赖

2022-07-29 22:04:30 597

原创 Flink前期代码结构

数据库中的数据根据解析数据时是否结束循环来判断有界无界流,但都采用流处理模式Unit={//创建flink环境valenvDataStream[String]=env.addSource(newMysqlSource)//传接口的子类,接收上游的数据mysqlDS//处理上游传来的数据.sum(1).print()env.execute()//执行flink}//继承SourceFunction[String]接口,指定返回类型,实现方法/**Unit={...

2022-07-28 09:52:12 311

原创 Flink时间和窗口

代码完成,本地(提交任务的地方)构建数据流程图,将图提交给jobManager并拆分多个task,进行任务调度设置flink任务的并行度,在代码中设置,在提交任务时设置(-p加上设置的并行度)(源码优先级高),但是socket的并行度只能是1一个并行度占用一个资源槽,和task无关,task可以共享资源可以对每一个算子设置名字,id,和并行度。...

2022-07-28 09:51:26 109

原创 spark写sql的方式

1.idea的把代码编写好打包上传到集群中运行1.1依赖和插件 <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.12</version>

2022-07-28 09:50:42 919

原创 spark(standalone,yarn)

Executor执行器,task在其中执行,缓存数据Task自己写的spark算子的代码逻辑封装的线程对象新建SparkContext程序,spark的控制程序,负责将task发送到executor中去执行executor的数量,内存,和core都可以手动设置--executor-cores1(其数量决定同时可以执行的task的数量).........

2022-07-28 09:50:08 397

原创 Spark_Core

网络

2022-07-20 15:24:59 485

原创 Spark_DSL

Spark_DSL。

2022-07-20 15:24:18 1603

原创 统计偏科最严重的前100名学生

Scala统计最偏科的前100名学生

2022-07-13 10:02:27 120

原创 Scala学习总结

1、Scala是把函数式编程和面向对象编程思想结合的一门编程语言2、大数据计算引擎spark是由Scala编写的(学习初衷)3、Scalable Language :可扩展的语言4、特点:(1)多范式 面向对象 函数式编程(2) 兼容Java 类库调用 互操作(3)简洁 代码行短,自动类型推断,抽象控制5、在函数式编程中,把函数传来传去6、Java编程与Scala编程都会被先编译成class文件,然后放到jvm上运行,但Scala无法反编译(Scala在Java的基础上做了一次

2022-07-12 21:32:12 942

原创 Scala连接Mysql数据库

Scala连接MySQL

2022-07-12 10:41:09 629

原创 电商项目常见连续登录,消费,日期等问题

一.数据,建表语句二.计算逻辑1.按照用户和日期进行分组,求每用户每天的消费2.根据用户id进行开窗按照日期进行排序,如果日期减去序号数是相同的说明这几行日期是连续的上表起名为tt1,注意用到日期函数date_sub(tt1.datestr,tt1.rn)临时结果3.统计用户连续交易总额,连续登录天数连续登录开始时间个结束时间以及间隔天数根据id,grep分组后查询列增加count(1)即可得到连续登录天数(代码省略)根据id,grep分组后的datestr列,最小的即为连续登录的开始时间,最

2022-07-06 20:03:36 104

原创 自定义UDF函数

自定义UDF函数以及加载到Linux上运行1.引入依赖注意:可能会出现引入依赖失败的情况,在settings文件中修改镜像tab键与空格键的问题,此处用的是tab键开头,此点可能影响打包2.写代码,继承UDF,导包,实现逻辑3.打jar包上传到Linux (后面跟jar包的完整路径)add jar /usr/local/soft/jars/HiveUDF2-1.0.jar;4.使用jar包资源注册一个临时函数create temporary function 函数名 as ‘主类名’

2022-07-06 15:07:16 724

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除