大数据_陆水A的博客-CSDN博客

大数据

关注

文章平均质量分 81

在大数据的世界里，技术播客如雨后春笋般涌现。为了帮助您在Spark、Flink、Hive等众多技术中寻找到心仪的播客，特设个人技术播客分类专栏。这里，您将发现根据不同技术组件和领域划分的播客。

关注数：文章数：13 文章阅读量：9592 文章收藏量：179

作者: 陆水A

我是一名大数据领域的专业人士，具备丰富的Spark、Flink、Hive等组件的使用经验。我热衷于研究新技术，不断探索如何利用大数据技术解决实际问题。同时，我也关注个人技术播客的发展，希望通过分享和学习，不断提升自己的技术水平。

展开

SparkSQL电商案例

Pandas是python的一个数据分析包（numpy，matlab），最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。

原创 2024-06-06 10:47:57 · 856 阅读 · 0 评论
spark的指令参数

在spark的bin下有是spark的指令，指令运行时可以指定对用的参数，实现对服务的控制。spark-submit --deploy-mode cluster 代码文件名。当spark完成计算后，会产生对应的日志计算信息，在计算信息中显示了计算的流程。流程中涉及Application，job，stage，task的信息。dirver有资源调度分配在哪台机器上运行，就是cluster。dirver在提交代码的服务器上运行时，就是client模式。集群模式提交计算任务的模式。cluster 集群模式。

原创 2024-01-09 11:23:55 · 400 阅读 · 0 评论
Spark核心--RDD介绍

rdd 弹性分布式数据集是spark框架自己封装的数据类型，用来管理内存数据数据集：rdd数据的格式类似Python中 []。hive中的该结构[] 叫数组rdd提供算子(方法) 方便开发人员进行调用计算数据在pysaprk中本质是定义一个rdd类型用来管理和计算内存数据分布式： rdd可以时使用多台机器的内存资源完成计算弹性：可以通过分区将数据分成多份 2 3 4，每份数据对应一个task线程处理python 也有自己的数据类型使用的是单机资源管理数据。

原创 2024-01-09 15:01:36 · 1036 阅读 · 0 评论
Flink + Paimon 数据 CDC 入湖最佳实践

LSM 典型的 Minor Compaction 是指：增量数据只会让前面几层的文件进行合并，只要增量数据不够多，最底层的文件是不会参与 Compaction 的，这就意味着多个 Tag 之间的最底层是完全一样，完全复用的，结合湖格式的文件管理，多个 Tag 并不会带来冗余的文件存储。Tag 是 immuatable 的，它不能被增删改查的，一般来说，数据库映射的表是不可变的，我们推荐在 ODS 层使用 Tag 来替代 Hive 的分区，但是后续的 DWD 和 DWS 不建议。

转载 2023-11-25 21:25:29 · 344 阅读 · 0 评论
Spark性能优化调优

为了提高运行速度，盲目的将-executor-cores的数量调大，增加CPU核数，但是executor memory的大小不变，每个core的内存也就变小，导致内存不够产生GC，可以也将executor memory也调大些，或者将executor-cores数量调小。如果数据量比较小，那么这样操作是没什么问题的，如果数据量比较大，那么就会因为a视图计算完之后，存储在内存中，到b视图计算的时候有可能会因为内存不够导致shuffle溢写，速度就会下降许多。很多时候我们的SQL中会出现许多的临时视图的情况。

原创 2024-01-08 14:46:19 · 781 阅读 · 0 评论
CTE语法和临时表都有其特定的用途和优缺点

综上所述，在Hive中，CTE和临时表都有其各自的优缺点。选择使用哪种技术取决于具体的应用场景和需求。在需要重用查询逻辑和模块化查询时，CTE可能是一个更好的选择；而在需要持久化存储、索引支持和并发控制时，临时表可能更有优势。

原创 2024-02-02 15:59:57 · 644 阅读 · 1 评论
spark-rdd实例

x 数结构rdd中每个元素数据，元素是是什么类型，就进行什么类型的计算操作。可以选择指定master，appName。

原创 2024-01-10 13:59:57 · 361 阅读 · 1 评论
SparkSQL和rdd的使用详解

Spark SQL是 Apache Spark 用于处理结构化数据（DataFrame和Datasets）的模块。

原创 2024-01-11 17:46:43 · 1137 阅读 · 2 评论
Apache Hive函数高阶应用、性能调优

侧视图的原理是将UDTF的结果构建成一个类似于视图的表，然后将原表中的每一行和UDTF函数输出的每一行进行连接，生成一张新的虚拟表。这里的严格模式指的是开启之后 hive会禁止一些用户都影响不到的错误包括效率低下的操作，不允许运行一些有风险的查询。Hive的默认执行引擎是MapReduce，因此通常所说的Hive压缩指的是MapReduce的压缩。在实际开发中，可以根据需求选择不同的文件格式并且搭配不同的压缩算法。因此在Hive中，调整MapTask的个数，直接去HDFS调整文件的大小和个数，效率较高。

原创 2024-02-01 16:49:10 · 861 阅读 · 1 评论
大数据开发者职业选择

首先明确一点：大数据涉及的知识面广度还是有的，需要学习的组件繁多，想要每一项精通几乎不可能，所以企业在招聘的时候会进行细分，基于某个方向进行招聘，比如关键字，数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。ETL工作属于业务与数据的交点、需要处理上下游的关系，首先，需要对业务层面非常熟悉，其次，需要对接数据开发工程师、数据科学家，整理并准备数据、进行数据清洗、整理、融合。数仓会细化离线数仓和实时数仓、目前离线数仓方向发展的已经很成熟了，实时数仓是未来趋势和方向。

原创 2023-11-23 22:24:53 · 359 阅读 · 0 评论
Spark核心--checkpoint、广播变量、累加器介绍

spark的shuffle的两个部分shuffle wirte 写shuffle read 读会进行文件的读写，影响spark的计算速度spark的shuffle方法类是spark封装好的处理shuffle的方法spark1.2版本前使用的类spark2.0后引入sortshuffle，删除了hashshuffle优化的hashshufulle和未优化bypass模式版本和普通模式版本bypass模式版本不会排序普通模式版本会排序进行shuffle。

原创 2024-01-10 17:47:33 · 1029 阅读 · 1 评论
Spark代码案例

用户可以根据需求自己封装计算的逻辑，对字段数据进行计算# 导入window类定义窗口# 1、生成SparkSession对象# 2、获取sparkcontext对象# 3、读取文件数据转为rdd# 4、查看rdd数据# 5、对每行数据进行切割# 6、rdd转df# 7、定义表信息df.show()# 自定义函数# x,y 接受传递字段的数据# 每次接受一行数据data = x+y# 注册到spark中使用# 第一个参数指定注册的函数名。

原创 2024-01-24 18:34:24 · 1042 阅读 · 1 评论
Spark基础介绍

spark是一个分布式计算框架，和mapreduce的作用一样，完成海量数据的计算。spark的计算思想也是分而治之，先进行数据的拆分，在进行数据的合并计算。spark是基于内存计算，计算任务是以线程的方式执行。spark计算需要消耗大量内存，内存的价格比磁盘价格高很多，在技术选型是要考虑成本问题。spark和presto，presto对海量数据计算时容易内存溢出，不适合对大量数据计算。spark会将部分数据存储在磁盘上。

原创 2024-01-08 16:20:13 · 744 阅读 · 0 评论

大数据

作者: 陆水A

SparkSQL电商案例

spark的指令参数

Spark核心--RDD介绍

Flink + Paimon 数据 CDC 入湖最佳实践

Spark性能优化调优

CTE语法 和 临时表 都有其特定的用途和优缺点

spark-rdd实例

SparkSQL和rdd的使用详解

Apache Hive函数高阶应用、性能调优

大数据开发者职业选择

Spark核心--checkpoint、 广播变量、累加器介绍

Spark代码案例

Spark基础介绍

CTE语法和临时表都有其特定的用途和优缺点

Spark核心--checkpoint、广播变量、累加器介绍