![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 76
CMCST
这个作者很懒,什么都没留下…
展开
-
windows本地开发Spark[不开虚拟机]
spark在idea上单机运行,无需windows格式化HDFS,windows本地仅需有JDK、hadoop解压后的文件、scala即可,亦无须连接虚拟机或者云服务器原创 2023-02-14 14:20:01 · 809 阅读 · 1 评论 -
Spark Core篇(一)
combineByKey 实现 reduceByKeyconf = SparkConf().setMaster("local").setAppName("WordCount")sc = SparkContext(conf = conf)def getSentences(nums): return LoremIpsum().get_sentences(nums)def wordCountApp(data): data = sc.parallelize(data) wor.原创 2022-05-11 11:24:07 · 195 阅读 · 0 评论 -
SparkSQL篇(一) DataFrame创建
DataFrame对象构成 层面 对象 说明 结构 StructType 描述整个DataFrame的表结构 StructField 描述一个列的信息 数据 Column 记录一列数据并包含列的信息 Row 记录一行数据 DataFrame对象创建people.txt文件内容如下Hichael,29Andy,30Justin,1..原创 2022-05-09 11:15:19 · 552 阅读 · 0 评论 -
DataFrame算子
算子分类 |__ RDD同源 | |__ 数据转换 | |原创 2022-05-07 21:17:06 · 342 阅读 · 0 评论 -
windows平台使用Docker搭建分布式Spark 与 hadoop集群
续前节windows平台使用Docker搭建分布式hadoop集群安装分布式Spark篇1. 运行windows平台使用Docker搭建分布式hadoop集群产生的镜像文件hadoop_centosdocker run -v E:\COURSE\spark:/home -itd --privileged --network hadoop -h "node01" --name "node01" -p 9870:9870 -p 8088:8088 -p 4040:4040 -p 8080:808.原创 2022-04-28 18:31:08 · 4306 阅读 · 1 评论