自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 收藏
  • 关注

原创 Flink-CDC 全面解析

代码实现:在 Flink-CDC 中,有像 Canal、Maxwell 等相关总结内容。而且代码版本和 sql 版本存在一定区别:版本支持:代码版本的 Flink 在 1.12 和 1.13 版本都支持相关操作,然而 sql 版本的 Flink 只有到 1.13 版本才支持。监听范围:代码版本支持一次监听多个数据库以及多个表,功能更为强大;而 sql 版本则只支持单库单表的监听。反序列化器:sql 版本中无需进行自定义反序列化器,相对简洁;

2025-01-06 18:36:48 1323

原创 一文带你了解Doris:高效的分布式数据分析引擎

相较于其他同类的数据分析工具,Doris 的优势明显。一方面,它兼顾了高性能与易用性,既能满足专业数据分析师对复杂分析的需求,又能让普通开发人员快速融入使用。另一方面,其强大的实时数据处理能力和高扩展性,使其能够适应不同行业、不同发展阶段企业的多样化需求,为企业的数据驱动发展之路保驾护航。总之,Doris 作为一款开源的分布式数据分析引擎,凭借其卓越的性能、丰富的特性和广泛的应用场景,正成为大数据领域中不可或缺的利器,助力企业在数字化浪潮中乘风破浪,挖掘数据的无限价值。

2024-12-25 12:09:38 948

原创 深入探索Flink的复杂事件处理CEP

CEP是一种基于流处理的技术,它将系统产生的数据看作是不同类型的事件。通过深入分析这些事件之间的内在关系,构建起多样化的事件关系序列库。在此基础上,运用过滤、关联、聚合等先进技术手段,能够从简单的基础事件中衍生出高级事件。并且,借助模式规则,我们可以精准地对重要信息进行跟踪和深度分析,从而在实时数据的海洋中发掘出隐藏的、具有高价值的信息宝藏。CEP在多个领域展现出了强大的应用潜力,例如在防范网络欺诈方面,能够实时监测异常的交易行为模式;

2024-12-19 14:39:17 982

原创 指标体系剖析:构建与应用的全面指南

在大数据时代,指标体系在企业运营和决策中扮演着至关重要的角色。无论是信贷业务还是其他领域,合理构建和运用指标体系都是关键。本文将深入探讨指标体系的概念、作用、构建方法以及注意事项,并结合实际案例进行详细阐述。

2024-12-11 18:55:14 769

原创 大数据漏斗模型分析满级理解顶级运用动态SQL

下面的Python代码实现了根据数据库中存储的漏斗业务路径信息自动拼接SQL语句,并执行相应的查询和插入操作。

2024-12-11 18:49:20 1044

原创 Hive 窗口函数与分析函数深度解析:开启大数据分析的新维度

在当今大数据蓬勃发展的时代,Hive 作为一款强大的数据仓库工具,其窗口函数和分析函数犹如一把把精巧的手术刀,助力数据分析师们精准地剖析海量数据,挖掘出深藏其中的价值宝藏。本文将带领大家深入探索 Hive QL 中这些神奇函数的奥秘,从版本演进、功能特性到丰富多样的实际应用示例,全方位地呈现它们在大数据处理领域的卓越魅力。

2024-12-06 16:39:06 1411

原创 Hive 数据操作语言全面解析

LOAD:用于将文件加载到表中。INSERT:能够从查询结果插入数据到 Hive 表、从 SQL 直接插入值到表,还支持动态分区插入以及将查询结果插入到文件系统目录等多种形式。UPDATE:对支持 ACID 的表进行更新操作(从 Hive 0.14 版本开始支持)。DELETE:同样针对支持 ACID 的表执行删除行的操作(从 Hive 0.14 版本开始支持)。MERGE:可以基于与源表的连接结果对目标表执行相应操作(从 Hive 2.2 版本开始支持)。

2024-12-06 14:21:58 1154

原创 Hive 分桶表的创建与填充操作详解

在 Hive 数据处理中,分桶表是一个极具实用价值的功能,它相较于非分桶表能够实现更高效的采样,并且后续还可能支持诸如 Map 端连接等节省时间的操作。不过,值得注意的是,在向表写入数据时,创建表时指定的分桶规则并不会被强制实施,所以有可能出现表的元数据所宣称的属性与表实际的数据布局不一致的情况,而这显然是我们要尽力避免的。接下来,详细介绍如何正确地创建和填充分桶表,以及在不同 Hive 版本中的相关要点。

2024-12-06 14:09:49 1489

原创 Hive 中 Order By、Sort By、Cluster By 和 Distribute By 的详细解析

在 Hive 数据查询与处理操作中,Order BySort ByCluster By和这些语句对于数据的排序、分区以及在 Reduce 阶段的处理起着关键作用。本文将详细解析它们各自的语法、区别以及一些使用要点,帮助大家深入理解并正确运用这些功能。

2024-12-06 13:57:55 1428

原创 Hive 连接(Joins)操作全面解析

在 Hive 大数据处理中,连接(Joins)操作是非常重要且常用的一部分。本文将对 Hive 中连接操作涉及的语法、示例、限制以及优化等多个方面进行详细总结,帮助大家更好地理解和运用 Hive 的连接功能。

2024-12-06 12:16:47 1007

原创 深度解读sparkRDD宽窄依赖

深度解读RDD的宽窄依赖、以及为什么要标记宽窄依赖有什么优势。

2024-11-28 10:36:05 1234

原创 Hive安装 保姆级安装教程

在hive-site.xml中,3215行,96列的地方有一个非法字符将这个非法字符,删除,保存即可。

2024-11-27 17:31:17 850

原创 Hadoop Namenode与Resourcemanager高可用搭建教程

在大数据处理中,Hadoop集群的高可用性至关重要。本文将详细介绍如何搭建Hadoop Namenode和Resourcemanager的高可用环境,确保集群的稳定运行和数据的可靠存储与处理。

2024-11-27 17:17:10 921

原创 Linux之VMware安装以及centos7安装详细教程--图解

【代码】Linux之VMware安装以及centos7安装详细教程--图解。

2024-11-27 14:20:50 237

原创 AI赋能编程学习:开启高效学习之旅

AI赋能编程学习:开启高效学习之旅一、提供个性化学习路径规划能力评估AI可以通过对学习者初始的编程知识测试来评估其基础水平。例如,通过一些在线编程挑战或者问卷调查,了解学习者对编程语言的语法掌握程度、对基本算法的理解以及是否有项目经验等情况。像在一些编程学习平台上,当学习者注册账号后,AI会引导他们完成一个简单的编程能力测试,包括编程语言的基本操作、数据结构的运用等内容。根据评估结果,AI能够为每个学习者量身定制学习路径。对于零基础的学习者,AI可能会推荐先从简单的编程语言(如Python)入门

2024-11-27 11:18:23 625

原创 Flink 之 Window 机制详解(下):应用示例与窗口函数

此外,以热门话题在社交媒体上的传播热度统计(热词统计)为例,我们可以构建一个数据处理流程,向 kafka 随机发送 50000 个热词(以 200 毫秒的时间间隔发送),然后利用 Flink 的 Window 机制,分别根据滚动窗口和滑动窗口来统计热词的出现频率等相关结果。通过以上对 Flink 中 Window 机制的应用示例以及窗口函数的介绍,我们对其在实际项目中的使用有了更深入的理解,能够更好地运用这一强大的机制来处理流数据中的各种聚合需求。,包含班级、学生姓名和成绩。在上述代码中,我们首先通过。

2024-11-25 19:02:44 1172

原创 Flink 之 Window 机制详解(上):基础概念与分类

而窗口机制的出现,恰如在这浩瀚的数据海洋中划定了一个个明确的区域,它能够收集最近特定时长内的数据,将无界的流数据转化为一个个有边界的数据集,从而使得针对这些数据的聚合计算成为可能。无论是统计股票行情在特定时间段内的波动情况,还是计算广告点击量在某一时段的总和,Windows 都无疑是处理无限流数据的核心利器,它将原本难以捉摸的流数据巧妙地拆分为有限大小的“数据桶”,为后续的精准计算提供了清晰的目标与范围。这一决策犹如在数据处理的道路上选择不同的分支路径,对后续的数据处理流程和性能有着深远的影响。

2024-11-25 19:01:02 853

原创 基于 Flink 的车辆超速监测与数据存储的小实战

本项目成功地利用 Flink、Kafka 和 MySQL 构建了一个车辆超速监测与数据存储系统,实现了从 Kafka 读取卡口数据、判断车辆超速并将超速信息写入 MySQL 的完整流程。通过实时处理卡口数据,交通管理部门能够及时获取超速车辆信息,有助于加强交通监管力度,提高道路交通安全水平。然而,在实际应用场景中,还可以对该系统进行进一步的优化与扩展。例如,可以增加数据质量监控模块,确保从 Kafka 读取的数据准确性和完整性;优化 Flink 任务的性能,根据集群资源和数据流量调整并行度等参数;

2024-11-24 19:21:44 970

原创 Maxwell:MySQL变更数据抓取与同步的得力工具

Maxwell是由美国Zendesk公司开源的,采用Java编写的一款专门用于MySQL变更数据抓取的软件。它犹如一个敏锐的监控者,能够实时地对MySQL数据库中的数据变更操作进行精确监控,涵盖了常见的insert(插入)、update(更新)、delete(删除)等操作。并且,它会将这些变更数据以JSON这种简洁且易于处理的格式发送给诸如Kafka、Kinesi等流行的流数据处理平台。其官网地址为http://maxwells-daemon.io/,为用户提供了丰富的信息资源和技术支持。

2024-11-24 16:55:52 1183

原创 Flink Transformation - 转换算子全面解析

使用用户定义的为每个元素选择目标任务。return 1;Flink的转换算子为数据流的处理提供了丰富而强大的功能。通过合理地组合和运用这些算子,可以构建出复杂而高效的数据流处理逻辑,以满足各种大数据处理场景下的业务需求。在实际应用中,需要根据数据的特点、业务逻辑以及性能要求等因素,灵活选择和配置合适的转换算子,从而充分发挥Flink在大数据处理领域的优势。

2024-11-23 13:59:26 1436

原创 Flink普通API之Source使用全解析

这种方式支持多种数据类型,包括Tuple、自定义对象等复合形式。但需要注意的是,传入的参数类型要一致,若不一致可以用Object接收,但使用过程中可能会报错。例如是不推荐的用法。从源码注释可知其对数据类型有一定要求与限制。它支持多种Collection的具体类型,如List,Set,Queue等。可以方便地将本地集合数据转换为DataStream。例如:该方法用于创建基于开始和结束的DataStream,一般用于学习测试时编造数据。例如会生成从1到10的整数序列的DataStream。

2024-11-23 13:56:12 1241

原创 Flink任务开发:从代码编写到集群提交

通过本文的介绍,我们了解了Flink任务开发的基本流程,包括使用DataStream API进行编码、打包上传以及提交任务的两种方式。在实际应用中,可以根据具体的业务需求,灵活运用Flink的各种功能和特性,构建高效、可靠的大数据处理应用。同时,需要注意Flink版本的兼容性以及相关依赖的管理,以确保任务的顺利开发和运行。

2024-11-23 13:52:52 905

原创 Flink Standalone集群模式安装部署全攻略

Flink作为一款强大的分布式流处理和批处理框架,在大数据领域有着广泛的应用。本文将详细介绍Flink Standalone集群模式的安装部署过程,帮助大家快速搭建起开发测试环境。

2024-11-22 15:50:10 981

原创 Java面试题分享

jdk1.8及以后采用数组加链表加红黑树,链表超阈值且数组满足条件会转红黑树,哈希函数先取键 hashCode 值再运算使分布均匀,键值对以含键、值等信息的内部类存储,当元素数量达到负载因子与容量的乘积会扩容2倍。runnable中的run方法没有返回值,callable中的call方法有返回值可以通过Future的get方法获取。整数类型的有byte 1字节,short 2字节,int 4字节,long 8字节。浮点类型有:float 4字节,double 8字节。字符类型:char 2字节。

2024-11-21 19:54:44 314

原创 Flink入门介绍

近年来大数据蓬勃发展,催生了多个热门开源社区。Hadoop、Storm、Spark 等各有其专注的应用场景。Spark 开启内存计算先河并推动其发展,一定程度上掩盖了其他分布式计算系统。Flink 便是在这样的环境中默默发展。第 1 代——Hadoop MapReduce:将计算分为 Map 和 Reduce 两个阶段,上层应用需拆分算法并串联多个 Job 来完成完整算法。第 2 代——DAG 框架(Tez) + MapReduce。

2024-11-21 19:07:20 917

原创 HDFS面试题

2):写,客户端接到写数据请求,向namenode发送上传数据请求,namenode进行权限校验后计算出要储存的数据节点,告知客户端数据节点,客户端将上传数据切分成packet(64KB),与第一个节点创建连接通道pipeline进行数据传输,数据节点之间也会创建pipeline进行数据复制同步并响应,最后汇总后告知客户端传输完成。1):读,客户端接到读的请求,向namenode发送请求,namenode查询元数据,找到读取文件对应的块以及存储在哪些数据节点,将元数据信息返回客户端。当客户端要访问数据时,

2024-11-21 09:52:08 259

原创 Java多线程创建方式全解

在Java编程中,多线程是一个重要的概念,它能让程序同时执行多个任务,提高程序的效率和响应能力。以下将详细介绍Java中创建多线程的四种方式。创建并启动线程在主程序中创建线程对象,并调用方法来启动线程。方法会自动调用线程对象的方法,使得线程开始执行。例如:(二)特点这种方式简单直接,符合面向对象的编程思想。但是,由于Java是单继承的,如果一个类已经继承了其他类,就无法再继承类来创建线程。创建并启动线程首先创建实现了接口的类的对象,然后将这个对象作为参数传递给类的构造函数来创建线程对象,

2024-11-18 18:14:49 633

原创 Python版Spark Structured Streaming编程指南

Structured Streaming是构建在Spark SQL引擎之上的可扩展且容错的流处理引擎。用户可以像处理静态数据的批处理计算一样表达流计算,Spark SQL引擎会持续增量地运行计算,并在流数据不断到达时更新最终结果。用户可以使用Scala、Java、Python或R中的Dataset/DataFrame API来表达流聚合、事件时间窗口、流到批处理的连接等操作,计算在优化的Spark SQL引擎上执行,系统通过检查点和预写日志确保端到端的精确一次容错保证。

2024-11-16 17:41:18 1183

原创 CDH安装与配置及相关大数据组件实践

CDH(Cloudera’s Distribution Including Apache Hadoop)是一个基于 Web 用户界面的大数据平台版本。它支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop 等。其优点是大大简化了大数据平台的安装过程,使用起来也较为简单。

2024-11-15 12:14:04 1257

原创 Linux 下 Maxwell 教程

Maxwell是一款在电磁仿真领域广泛应用的强大软件。在Linux环境下使用Maxwell,能为工程师和科研人员在电磁设计与分析方面提供高效的解决方案。本文将详细介绍在Linux系统中Maxwell的安装、基本操作和使用技巧。

2024-11-15 12:10:49 612

原创 Redis五种数据类型剖析

字符串是 Redis 中最基本的数据类型,它可以存储任何形式的字符串,包括文本、序列化后的对象、二进制数据等。一个字符串类型的键值对在 Redis 中就是一个简单的 key - value 结构,其中 value 是字符串。哈希类型可以理解为是一个键值对的集合,不过这里的键值对是在一个 Redis 的键下。它非常适合存储对象,将对象的属性作为哈希的字段,属性值作为哈希的字段值。列表是一个字符串元素的有序集合,可以在列表的头部或尾部添加或删除元素。列表中的元素可以重复。

2024-11-11 20:59:54 1598

原创 kafka常见面试题总结

Kafka是如何做到高效读写顺序读写优势Kafka将消息存储在磁盘上,利用了磁盘顺序读写速度快的特点。传统的磁盘随机读写性能较差,因为磁头需要频繁地移动位置来读取不同位置的数据。而在Kafka中,消息是追加式地写入分区(Partition)的日志文件(Log)中,并且消费者也是顺序地从这些日志文件中读取消息。例如,当生产者发送消息时,消息会按照时间顺序依次追加到分区的末尾,就像在一个不断增长的队列中添加元素一样。这样的顺序写入操作,磁盘的磁头基本不需要频繁寻道,大大提高了写入速度。同样,消费者从分

2024-11-11 19:10:54 628

原创 AI 大模型:重塑软件开发的新力量

AI 大模型是一种基于大规模数据训练而成的人工智能模型,它拥有海量的参数和强大的计算能力。这些参数就像是神经网络中的神经元连接权重,经过大量数据的训练调整,使得模型能够对各种输入做出精准的预测和输出。以软件开发为例,大模型能够学习代码的语法、语义和逻辑模式,从而为开发者提供有价值的建议和帮助。它不同于传统的小型 AI 模型,其规模和能力使得它可以处理更为复杂的任务,挖掘出深层次的数据关系。

2024-11-09 14:52:27 825

原创 kafka常见面试题总结

Kafka 发送消息涉及两个线程:main 线程和 sender 线程。在 main 线程中,会创建一个双端队列 RecordAccumulator,main 线程负责将消息发送给 RecordAccumulator,而 sender 线程则从 RecordAccumulator 中拉取消息并发送到 Kafka Broker。

2024-11-09 14:47:29 1229

原创 Hive 实现查询用户连续三天登录记录

通过以上步骤,我们可以使用 Hive 实现查询用户连续三天登录的所有数据记录。

2024-11-08 08:20:28 520

原创 【kafka】大数据编写kafka命令使用脚本,轻巧简洁实用kafka

这个脚本提供了一个用户友好的界面,整合了常见的 Kafka 操作功能,包括主题操作、生产者操作、消费者操作、配置操作、消费者组操作以及生产者和消费者的性能测试。通过简单的数字选择,用户可以轻松地进入相应的操作菜单,执行所需的命令,大大提高了操作效率。

2024-11-08 08:04:15 1108

原创 Hive 查询各类型专利 top10 申请人及专利申请数

在专利数据处理中,我们常常需要分析不同类型专利下申请人的活跃度。例如,给定一个专利明细表,其中包含专利号、专利名称、专利类型、申请时间、授权时间和申请人等信息,且一个专利可能有多个申请人(以分号隔开)。我们的目标是找出各类型专利 top10 申请人以及他们对应的专利申请数。

2024-11-07 20:45:27 627

原创 【蚂蚁SQL面试题】蚂蚁数据研发一面面试题

在数据处理中,我们有两张表,一张是用户贷款信息表,包含uid(用户 id)、amt(贷款金额)、ovd_days(逾期天数)、dt(时间分区);另一张是逾期等级配置表,包含ovd_days(逾期天数)、user_level(用户风险等级)。例如,当且,表示用户逾期天数 1 同时

2024-11-06 18:22:13 668

原创 python代码实现datax、sqoop功能,用spark将hive数据导入导出到mysql

这种方法具有高效、灵活的特点,可以替代传统的数据迁移工具如 datax 和 sqoop。同时,我们还可以根据实际需求进行扩展和优化,例如处理大规模数据、进行数据转换和清洗等操作。希望本文对你在大数据处理中的数据迁移工作有所帮助。在大数据处理中,经常需要在不同的数据库之间进行数据的导入导出操作。本文将介绍如何使用 Python 中的 Spark 框架实现将 Hive 数据导入到 MySQL 以及从 MySQL 数据导出到 Hive 的功能,以替代传统的 datax 和 sqoop 工具。

2024-11-06 18:14:35 835

原创 Hive SQL中判断内容包含情况的全面指南

原理如果现有的函数无法满足特定的包含内容判断需求,可以编写用户自定义函数(UDF)。例如,当需要使用复杂的自然语言处理规则或特定的业务逻辑来判断是否包含某些内容时。示例(以Python编写UDF为例)首先,编写一个Python函数来实现判断逻辑。例如,判断一个字符串是否包含另一个字符串,并且忽略大小写:然后,将这个函数注册为Hive UDF并使用。在Hive中,可以通过ADD JAR命令添加包含UDF的JAR包,然后使用来注册函数,之后就可以在查询中使用这个自定义函数了。

2024-11-05 12:09:27 1237

大数据编写kafka命令使用脚本,轻巧简洁实用kafka

大数据编写kafka命令使用脚本,轻巧简洁实用kafka

2024-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除