- 博客(2)
- 收藏
- 关注
原创 spark学习之sparksql中dataframe的常用函数
SparkSql-DataFrame 一、DataFrame的相关方法 1、show 作用:展示数据 show(numRows:Int,truncate:Boolean) show(numRows:Int) numRows:表示展示的行数(默认展示20行) Truncate:只有两个取值true,false,表示一个字段是否最多显示20个字符,默认为true 2、collect 作用:获取一个dataframe的里面的数据 形成的是一个数组 注意:返回的是一个array 适用于数据量比较小的场景
2020-10-11 23:44:36 3260
原创 spark之sparkcore学习笔记
SparkCore 第一章 Spark和hadoop的关系 1、Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎,spark的调度系统和存储都是基于hadoop的组件hdfs。 2、Spark作为分析计算的框架是基于内存的,hadoop是基于磁盘的。 3、Spark Task的启动时间快。Spark采用fork线程的方式,而Hadoop采用创建新的进程的方式。 第二章 Spark的快速上手 pom文件 <dependencies> <dependency>
2020-10-11 23:00:37 352
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人