![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
雨笋情缘
这个作者很懒,什么都没留下…
展开
-
Apache Spark 的基本概念和在大数据分析中的应用
弹性分布式数据集(Resilient Distributed Dataset,简称RDD):RDD 是 Spark 中的基本数据结构,它是一个分布式的不可变数据集合,可以在并行计算中进行操作和处理。总的来说,Apache Spark 是一个功能强大的大数据分析引擎,可以处理大规模数据集,支持多种数据处理和分析场景,是大数据分析中的重要工具之一。数据清洗和预处理:Spark 提供了丰富的数据处理和转换操作,可以对大规模数据进行清洗和预处理,如数据过滤、聚合、整理等。原创 2024-05-11 10:22:01 · 424 阅读 · 1 评论 -
Spark DataSet常用action,及操作汇总
DataSet 的函数详细API常见此链接Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describ...原创 2018-09-14 21:29:23 · 359 阅读 · 0 评论 -
Spark DataFrame:提取某列并修改/ Column更新、替换
原文链接1.concat(exprs: Column*): Columnfunction note: Concatenates multiple input columns together into a single column. The function works with strings, binary and compatible array columns.我的问题: d...原创 2018-12-20 20:36:19 · 12333 阅读 · 0 评论