Spark
文章平均质量分 80
天天~
知识搬运工
展开
-
pyspark DataFrame问题解决
参考文档 1、https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html 1、去除重复列 pyspark.sql.DataFrame.dropDuplicates(subset=None) 作用:返回删除重复行的新 DataFrame,可选择仅考虑某些列。 Examples from pyspark.sql import Row df = sc.parallelize([ \ Row(name='Alice原创 2022-05-27 17:37:36 · 1074 阅读 · 0 评论 -
pyspark 之 rdd操作
1、rdd 简介 什么是rdd?从官网和一些技术博客上我们都可以看到这样的介绍 RDD叫做弹性分布式数据集(resilient distributed dataset) ,是Spark中最基本的数据抽象,它是跨集群节点分区的元素集合,可以并行操作。 官网举例如下: ## 构建包含应用信息的SparkConf对象 conf = SparkConf().setAppName(appName).setMaster(master) ## 创建SparkContext对象,Spark通过它访问集群 sc = Sp原创 2021-06-16 14:44:33 · 1322 阅读 · 0 评论