![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
算法驯化师
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备;
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
-
【Pyspark-驯化】一文搞懂Pyspark中的RDD的使用技巧
spark的运行基本由两部分组成:Transformnation(转换)和action,其中第一部分这类方法仅仅是定义逻辑,并不会立即执行,即lazy特性。目的是将一个RDD转为新的RDD。action不会产生新的RDD,而是直接运行,得到我们想要的结果RDD是PySpark中的核心数据结构,提供了丰富的操作来处理大规模数据集。通过本博客的代码示例,我们学习了如何创建RDD、执行转换和行动操作,以及使用高级功能如Pair RDD和聚合操作。原创 2024-08-06 14:24:34 · 259 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂PYspark中读取各类数据格式技巧:parquet、hdfs、json
hdfs、hive、本地CSVJSONParquetHive表JDBC等。通常我们将数据保存为parquet格式,这样可以将数据的存放大小缩小一个量级。PySpark提供了多种方式来读取不同类型的数据源。通过SparkSession,我们可以轻松地读取CSV、JSON、Parquet等格式的数据,并进行进一步的处理和分析。希望这篇博客能够帮助你更好地理解如何在PySpark中读取数据,并将其应用于处理大规模数据集。原创 2024-08-06 14:22:39 · 388 阅读 · 0 评论