自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(145)
  • 收藏
  • 关注

原创 SpringBoot接口开发总结

SpringBoot开发过程中的一些笔记

2024-09-14 10:14:57 574

原创 达梦数据库接口开发(日期格式转换)

在接口开发过程中,如果数据源的数据是连续插入进入源表中,并且当新数据到达时,老数据不会被删除。而业务处理过程中,只需要最新一批的数据时,我们可以对数据的create_time进行开窗倒序排序,然后只取rn=1的数据,保证每次取得的结果都是最新数据。其中还分两种不同的业务需求:

2024-09-04 10:54:03 960

原创 自研大模型一体机技术分析

硬件方面,大模型一体机需要强大的计算能力来处理复杂的人工智能算法。这通常涉及到使用高性能的处理器(如GPU或ASIC)来加速数学运算。RAIDASIC。

2024-08-14 17:18:25 871

原创 初步认识大模型训推一体机

大模型训推一体机” 这个概念指的是用于大规模机器学习模型训练和推理的一体化系统或平台。在人工智能领域,特别是深度学习中,随着模型规模的增大(比如参数量达到数十亿甚至更多),对计算资源的需求也急剧增加。因此,开发专门的硬件和系统来支持这些大模型的训练和部署变得尤为重要。随着技术的发展,训推一体机将会成为构建和部署复杂AI应用的关键基础设施之一。

2024-08-14 16:09:57 1016

原创 AutoGPT项目实操总结

AutoGPT是一个基于GPT-4的开源项目,旨在简化用户与语言模型的交互过程,使文本生成和信息收集更轻松、更高效。它具备互联网搜索、长短期记忆管理、调用大模型进行文本生成、存储和总结文件等能力,并且可以通过插件扩展功能与其他工具和服务进行无缝集成。AutoGPT的设计目标是实现自动化和增强内容生成,它像一个既有创造力又有逻辑思维的数字助手,能够处理从订披萨到预测股市趋势等广泛的任务。AutoGPT的工作原理涉及到无监督学习,通过创建类似人类的文本答案来执行各种工作。

2024-08-05 10:57:23 518

原创 python项目实战之人脸识别

人脸识别是基于人的脸部特征信息进行身份识别的一种图像识别技术。人脸识别是人工智能的一种,类似的AI技术还有虚拟现实交互、无人驾驶和大语言模型等技术。为什么这些技术被称之为人工智能,智能这个词的定义是什么,达到什么程度才能被称为人工智能?

2024-08-05 10:36:11 863

原创 mac系统使用opencv时报错cant‘t open in read mode

在下载了python3.7和人脸识别所需的opencv-python和opencv-contrib-python后,我尝试在我的mac笔记本的pycharm软件中运行一段调用摄像头进行人脸识别的python脚本。

2024-07-31 09:39:07 164

原创 如何优雅的搭建一个轻量化的网站

这里我找到了一个带有简单的悬停变色效果的个人博客网站模板。用来演示这次的轻量化网站搭建。你可以复制这段代码到一个txt文件中,修改文件后缀名为html即可得到一个最简单的静态网页文件。在没有搭建网站服务器时,本机可以通过直接双击该文件跳转到浏览器查看页面效果。margin;padding;;header;color;text-align;padding;margin;padding;;section。

2024-01-08 22:08:21 1453

原创 Flink电商实时数仓项目部署上线

dws层已经把轻度聚合的结果保存到了Doris中,后续只要从Doris读取数据再做简单聚合即可。一个易于使用的流处理应用开发框架和一站式流处理操作平台和管理流应用。它提供了Flink和Spark编写流的脚手架。

2024-01-05 19:15:32 553

原创 Flink实时电商数仓之旁路缓存

撤回流是指流式处理过程中,两表join过程中的数据是一条一条跑过来的,即原本可以join到一起的数据在刚开始可能并没有join上。

2024-01-04 16:39:12 873

原创 Flink实时电商数仓(十)

需求分析:从Kafka订单明细主题读取数据,过滤null数据并按照唯一键对数据去重,按照SKU维度分组,统计原始金额、活动减免金额、优惠券减免金额和订单金额,并关联维度信息,将数据写入Doris交易域SKU粒度下单各窗口汇总表。在支付成功模块,由于订单详情表处理时已经存在撤回流,但支付成功模块也是使用left join方式调用订单详情数据,会导致产生两次撤回流。在后续dws层处理时,要注意对数据进行去重过滤。

2024-01-02 16:22:13 1336

原创 Flink实时电商数仓(九)

gitee仓库地址:(https://gitee.com/langpaian/gmall2023-realtime)统计各窗口加购独立用户数,写入Doris。

2023-12-29 16:57:56 915

原创 Flink实时电商数仓(八)

gitee仓库地址:(https://gitee.com/langpaian/gmall2023-realtime)

2023-12-29 16:57:16 1128

原创 Flink实时电商数仓之DWS层

进行分词需要引入IK分词器,使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone 手机,拆分为苹果,iphone, 手机。

2023-12-28 09:08:12 1053

原创 Flink实时电商数仓之Doris框架(七)

大规模并行处理的分析型数据库产品。使用场景:一般先将原始数据经过清洗过滤转换后,再导入doris中使用。

2023-12-26 16:14:10 2108 1

原创 Flink电商实时数仓(六)

dwd层其他的事实表都是从topic_db中去业务数据库一张表的变更数据,按照某些过滤后写入kafka的对应主题,它们处理逻辑相似且较为简单,可以结合配置表动态分流在同一个程序中处理。有点类似我们前面实现DIM层的动态配置。

2023-12-25 17:58:17 1017

原创 Flink实时电商数仓(五)

Lookup Join:适合主流特别大,从流特别小的情况;主流数据没到达一条,就会去查询从流的每一条数据。主流数据不存储在内存中。

2023-12-23 21:15:18 799

原创 Flink电商实时数仓(四)

业务数据:数据都是MySQL中的表格数据, 使用Flink SQL 处理日志数据:分为page页面日志(页面信息,曝光信息,动作信息,报错信息)和启动日志(启动信息,报错信息),使用Flink Stream API处理。

2023-12-23 09:40:16 928

原创 Flink电商实时数仓(三)

维度层的重点和难点在于实时电商数仓需要的维度信息一般是动态的变化的,并且由于实时数仓一般需要一直运行,无法使用常规的配置文件重启加载方式来修改需要读取的ODS层数据,因此需要通过Flink-cdc实时监控MySql中的维度数据配置信息表,实时动态的发布广播信息。主流数据根据广播数据及时调整处理逻辑,并自动在HBase中创建相应的维度表和写入相应的维度数据。

2023-12-21 16:02:24 1386

原创 Flink实时电商数仓(二)

【代码】Flink实时电商数仓(二)

2023-12-19 18:55:43 1224

原创 Flink实时电商数仓(一)

为数据分析而设计的企业级数据管理系统。常用的存储系统是Hadoop的HDFS文件系统,使用Hive进行数据计算,并将结果导入HDFS。离线数仓最明显的特点是T+1模式,今天只能算昨天的数据,时效性不够优秀。

2023-12-17 11:41:00 472

原创 FlinkSQL中的窗口

需求:有一张test表,表的字段为:A, B, C, amount, 其中A, B, C为维度字段,求以三个维度任意组合,统计sum(amount)

2023-12-16 16:57:06 390

原创 FlinkSQL的联结和函数

Flink支持引入Hive中的优秀函数,比如Split(‘aa,bb,cc,dd’, ‘,’).一条流与外部的一张表(维度表)进行联结。

2023-12-16 16:55:52 287

原创 状态的一致性和FlinkSQL

一致性其实就是结果的正确性。精确一次是指数据有可能被处理多次,但是结果只有一个。一次性。

2023-12-15 21:46:33 676 1

原创 IDEA配置ctrl + / 快捷键注释的位置

选择"Settings"(设置)或"Preferences"(偏好设置),具体取决于你使用的是Windows/Linux还是macOS系统。在 “Line comment at first column”(行注释在第一列)旁边的下拉菜单中,选择 “None”(无)。通过这个设置,当你使用行注释(Ctrl + /)时,注释符号将直接跟随在代码的第一个字母之后,而不会在第一列插入空格。在 “Code Generation”(代码生成)选项卡下,找到 “Comment Code”(注释代码)。

2023-12-15 19:24:47 709 1

原创 Flink的容错机制

容错:指出错后不影响数据的继续处理,并且恢复到出错前的状态。检查点:用存档读档的方式,将之前的某个时间点的所有状态保存下来,故障恢复继续处理的结果应该和发送故障前完全一致,这就是所谓的检查点。检查点的控制节点:jobManager里面的检查点协调器,向source节点的数据插入barrier标记。检查点的保存:- 周期性触发保存- 保存的时间点:所有算子恰好处理完一个相同的输入数据时(使用Barrier机制)

2023-12-13 16:29:57 645

原创 Flink之keyby状态

TTL(Time to live), 用来控制状态的清理时间,当超过某个时间不对状态操作后,Flink会自动清理该状态。注意:EmbeddedRocksDBStateBackend后端需要添加相关依赖。

2023-12-12 16:57:01 271

原创 Flink之状态编程

对人来说,状态是指当下的各种条件的具体情况就是状态;对于数据来说,状态就是当下需要维护的额外的数据。

2023-12-12 11:58:22 410

原创 Flink之流的转换

DataStream是Flink中流的核心类,经过keyby操作可以转换为keyedStream, 经过windowAll操作可以转换为AllwindowedStream, keyedStream流经过window操作可以转换为windowedStream,这些特殊Stream经过聚合操作、reduce, aggregate,apply,process等操作后又可以变回DataStream流

2023-12-11 19:36:15 302

原创 Flink之迟到的数据

IntervalJoin : 以一条流中数据的时间为基准, 设定上界和下界, 形成一个时间范围, 另外一条流中相同key的数据如果能落到对应的时间范围内, 即可join成功。WindowJoin: 在同一个窗口内的相同key的数据才能join成功。解决某条流长时间没有数据,不能推进水位线,导致下游窗口的窗口无法正常计算。

2023-12-11 19:31:44 290

原创 窗口的聚合和水位线的传递

水位线传递原则:1. 多个上游,同时给1个下游传递水位线,下游取哪个水位线:取最小的2. 1个上游,同时给多个下游传递水位线,如何传:采用广播的方式。

2023-12-09 16:43:22 72

原创 Flink之JDBCSink连接MySQL

Flink之Jdbc Sink,将数据输入到mySQL数据库,以及输入过程中的幂等性处理。

2023-12-08 19:47:57 868 4

原创 水位线和窗口

Flink中窗口是动态创建的,当有落在这个窗口区间范围的数据达到时,才创建对应的窗口。事实上,触发计算和窗口关闭两个行为可以分开。

2023-12-08 16:21:47 155

原创 Flink之DataStream API的转换算子

DataStream API 转换操作及富函数

2023-12-06 21:29:31 222

原创 Flink基础之DataStream API

目前所使用的大多数Sink, 都是基于2PC的方式来保证状态精确一次性。2PC 即 two face commit, 两阶段提交,该机制的实现必须要开启Flink的检查点。为了在Shell中开启消费者更为便捷,这里写了一个小脚本,用来动态的设置主题并开启相应的Kafka消费者,脚本名称为kc.sh.

2023-12-06 21:21:11 597

原创 Flink入门之DataStream API及kafka消费者

shell 创建生产者对象:kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic first。一个主题的一个分区只能被一个消费者组中的一个消费者消费。一个消费者组中的一个消费者可以消费一个主题中的多个分区。主要用于生成模拟数据,也需要导入相关依赖。消费者对象:KafkaConsumenr。使用文件数据源前,需要先添加相关依赖。

2023-12-05 20:18:55 642

原创 Flink入门之核心概念(三)

TaskSlots: 任务槽,是TaskManager提供的用于执行Task的资源(CPU + 内存)TaskManager提供的TaskSlots的个数:主要由Taskmanager所在机器的CPU核心数来决定,不能超过CPU的最大核心数一个作业的Task数量如何确定?Slot共享:flink允许将上下游的task共享给同一个slot。但是注意,同一个Task的并行子任务不允许共享为什么要Slot共享?能不能不共享?一个作业的并行度如何确定?

2023-12-05 18:48:24 601

原创 Flink运行时架构&核心概念

JobManager:协调,决定何时调度下一个task,对失败任务做恢复。TaskManger: 必须有一个。

2023-12-04 16:46:09 639

原创 Flink入门之部署(二)

standalone集群,会话模式部署:先启动flink集群standalone集群,应用模式部署:无需先启动集群,直接提交任务,集群会自动启动,任务取消后集群会自动关闭Yarn集群,单作业模式部署Yarn集群,应用模式部署。

2023-12-04 16:42:04 690

原创 Flink入门(一)

会话模式:多个任务共享一个任务管理器,适合多个执行时间短、使用资源少的任务。把流处理需要使用到的额外数据保存为一个“状态”,状态会跟着流动的数据动态的变化。单作业模式:一个作业,专用的任务管理器,程序运行在客户端机器上。应用模式:一个作业,专用的任务管理器,程序运行在集群机器上。

2023-12-02 16:52:01 389

python项目实战之人脸识别

项目代码资源

2024-08-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除