![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
zhangfei_bk
这个作者很懒,什么都没留下…
展开
-
SparkSql-自定义函数
1.UDF现有数据的字段包括username和age,要求查询时在username的结果前加上字符串name:,如name:张三。 代码如下:def main(args: Array[String]): Unit = { //创建上下文环境配置对象 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSql") //创建 SparkSession 对象 val spark = SparkSessio原创 2021-08-10 11:57:26 · 289 阅读 · 0 评论 -
IDEA 开发 SparkSQL-配置与简单使用
1.添加依赖在idea项目的pom.xml中添加依赖。<!--spark sql依赖,注意版本号--><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version></dependency>2.案例代码原创 2021-08-09 23:35:17 · 978 阅读 · 0 评论 -
spark基本函数- RDD转换算子和行动算子
文章目录一、RDD转换算子0.说明1.map2.mapPartitions3.mapPartitionsWithIndex4.flatMap5.glom6.groupBy7.filter8.sample-抽取数据9.distinct-去重10.coalesce-缩减扩大分区11. repartition-缩减扩大分区12.sortBy13.intersection-交集14.union-并集15.subtract-差集16.zip-拉链17.partitionBy-分区18.reduceByKey一、RD原创 2021-08-07 17:31:54 · 1094 阅读 · 0 评论 -
IDEA增加Spark依赖关系及其简单使用-词频统计
修改 Maven 项目中的 POM 文件,增加 Spark 框架的依赖关系,使用时请注意对应版本。<dependencies> <!--spark依赖,注意版本号--> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <ve原创 2021-08-03 21:20:10 · 2364 阅读 · 3 评论