![](https://img-blog.csdnimg.cn/direct/92ef6a7fd25e470b9edc36545b6d15ef.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 81
在大数据的世界里,技术播客如雨后春笋般涌现。为了帮助您在Spark、Flink、Hive等众多技术中寻找到心仪的播客,特设个人技术播客分类专栏。这里,您将发现根据不同技术组件和领域划分的播客。
陆水A
我是一名大数据领域的专业人士,具备丰富的Spark、Flink、Hive等组件的使用经验。我热衷于研究新技术,不断探索如何利用大数据技术解决实际问题。同时,我也关注个人技术播客的发展,希望通过分享和学习,不断提升自己的技术水平。
展开
-
SparkSQL电商案例
Pandas是python的一个数据分析包(numpy,matlab),最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。原创 2024-06-06 10:47:57 · 856 阅读 · 0 评论 -
spark的指令参数
在spark的bin下有是spark的指令,指令运行时可以指定对用的参数,实现对服务的控制。spark-submit --deploy-mode cluster 代码文件名。当spark完成计算后,会产生对应的日志计算信息,在计算信息中显示了计算的流程。流程中涉及Application,job,stage,task的信息。dirver有资源调度分配在哪台机器上运行,就是cluster。dirver在提交代码的服务器上运行时,就是client模式。集群模式提交计算任务的模式。cluster 集群模式。原创 2024-01-09 11:23:55 · 400 阅读 · 0 评论 -
Spark核心--RDD介绍
rdd 弹性分布式数据集 是spark框架自己封装的数据类型,用来管理内存数据数据集:rdd数据的格式 类似Python中 []。hive中的 该结构[] 叫 数组rdd提供算子(方法) 方便开发人员进行调用计算数据在pysaprk中本质是定义一个rdd类型用来管理和计算内存数据分布式 : rdd可以时使用多台机器的内存资源完成计算弹性: 可以通过分区将数据分成多份 2 3 4,每份数据对应一个task线程处理python 也有自己的数据类型 使用的是单机资源管理数据。原创 2024-01-09 15:01:36 · 1036 阅读 · 0 评论 -
Flink + Paimon 数据 CDC 入湖最佳实践
LSM 典型的 Minor Compaction 是指:增量数据只会让前面几层的文件进行合并,只要增量数据不够多,最底层的文件是不会参与 Compaction 的,这就意味着多个 Tag 之间的最底层是完全一样,完全复用的,结合湖格式的文件管理,多个 Tag 并不会带来冗余的文件存储。Tag 是 immuatable 的,它不能被增删改查的,一般来说,数据库映射的表是不可变的,我们推荐在 ODS 层使用 Tag 来替代 Hive 的分区,但是后续的 DWD 和 DWS 不建议。转载 2023-11-25 21:25:29 · 344 阅读 · 0 评论 -
Spark性能优化调优
为了提高运行速度,盲目的将-executor-cores的数量调大,增加CPU核数,但是executor memory的大小不变,每个core的内存也就变小,导致内存不够产生GC,可以也将executor memory也调大些,或者将executor-cores数量调小。如果数据量比较小,那么这样操作是没什么问题的,如果数据量比较大,那么就会因为a视图计算完之后,存储在内存中,到b视图计算的时候有可能会因为内存不够导致shuffle溢写,速度就会下降许多。很多时候我们的SQL中会出现许多的临时视图的情况。原创 2024-01-08 14:46:19 · 781 阅读 · 0 评论 -
CTE语法 和 临时表 都有其特定的用途和优缺点
综上所述,在Hive中,CTE和临时表都有其各自的优缺点。选择使用哪种技术取决于具体的应用场景和需求。在需要重用查询逻辑和模块化查询时,CTE可能是一个更好的选择;而在需要持久化存储、索引支持和并发控制时,临时表可能更有优势。原创 2024-02-02 15:59:57 · 644 阅读 · 1 评论 -
spark-rdd实例
x 数结构rdd中每个元素数据,元素是是什么类型,就进行什么类型的计算操作。可以选择指定master,appName。原创 2024-01-10 13:59:57 · 361 阅读 · 1 评论 -
SparkSQL和rdd的使用详解
Spark SQL是 Apache Spark 用于处理结构化数据(DataFrame和Datasets)的模块。原创 2024-01-11 17:46:43 · 1137 阅读 · 2 评论 -
Apache Hive函数高阶应用、性能调优
侧视图的原理是将UDTF的结果构建成一个类似于视图的表,然后将原表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表。这里的严格模式指的是开启之后 hive会禁止一些用户都影响不到的错误包括效率低下的操作,不允许运行一些有风险的查询。Hive的默认执行引擎是MapReduce,因此通常所说的Hive压缩指的是MapReduce的压缩。在实际开发中,可以根据需求选择不同的文件格式并且搭配不同的压缩算法。因此在Hive中,调整MapTask的个数,直接去HDFS调整文件的大小和个数,效率较高。原创 2024-02-01 16:49:10 · 861 阅读 · 1 评论 -
大数据开发者职业选择
首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。ETL工作属于业务与数据的交点、需要处理上下游的关系,首先,需要对业务层面非常熟悉,其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。数仓会细化离线数仓和实时数仓、目前离线数仓方向发展的已经很成熟了,实时数仓是未来趋势和方向。原创 2023-11-23 22:24:53 · 359 阅读 · 0 评论 -
Spark核心--checkpoint、 广播变量、累加器介绍
spark的shuffle的两个部分shuffle wirte 写shuffle read 读会进行文件的读写,影响spark的计算速度spark的shuffle方法类是spark封装好的处理shuffle的方法spark1.2版本前使用的类spark2.0后引入sortshuffle,删除了hashshuffle优化的hashshufulle和未优化bypass模式版本和普通模式版本bypass模式版本不会排序普通模式版本会排序进行shuffle。原创 2024-01-10 17:47:33 · 1029 阅读 · 1 评论 -
Spark代码案例
用户可以根据需求自己封装计算的逻辑,对字段数据进行计算# 导入window类 定义窗口# 1、生成SparkSession对象# 2、获取sparkcontext对象# 3、 读取文件数据转为rdd# 4、查看rdd数据# 5、对每行数据进行切割# 6、rdd转df# 7、定义 表信息df.show()# 自定义函数# x,y 接受传递字段的数据# 每次接受一行数据data = x+y# 注册到spark中使用# 第一个参数 指定注册的函数名。原创 2024-01-24 18:34:24 · 1042 阅读 · 1 评论 -
Spark基础介绍
spark是一个分布式计算框架,和mapreduce的作用一样,完成海量数据的计算。spark的计算思想也是分而治之,先进行数据的拆分,在进行数据的合并计算。spark是基于内存计算,计算任务是以线程的方式执行。spark计算需要消耗大量内存,内存的价格比磁盘价格高很多,在技术选型是要考虑成本问题。spark和presto,presto对海量数据计算时容易内存溢出,不适合对大量数据计算。spark会将部分数据存储在磁盘上。原创 2024-01-08 16:20:13 · 744 阅读 · 0 评论