自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

2201_75817686的博客

原创 spark

combineByKey0方法用于将键相同的数据合并，并且允许返回与输人数据的类型不同的返回值，c。zip()方法：用于将两个RDD组合成键值对RDD,要求两个RDD的分区数量以及元素数。1.已存在的RDD调用toDF()方法转换得到DataFrame。collect()/collectAsList():获取所有数据。reduceByKey()方法：合并具有相同键的值。groupByKey():对具有相同键的值进行分组。where()方法：查询符合指定条件的数据。2.把已有的RDD转化为新的RDD。

2024-05-13 12:15:17 240

原创 Spark编程基础

第二种方式生成的RDD中保存的是T的值，Seq[String]部分的数据会按照Seq[(TSeq[Stringl)]的顺序存放到各个分区中，一个Seq[String]对应存放至一个分区，并为数据提供位置信息，通过preferredLocations)方法可以根据位置信息查看每一个分区的值。调用 makeRDD()时不可以直接指定RDD的分区个数，分区的个数与Seq[Stringl参数的个数是保持一致的。若不设分区数，则RDD的分区数默认为该程序分配到的资源的CPU核心数。使用map()方法转换数据。

2024-05-08 15:11:31 141

原创 Spark大数据技术与应用

非结构化数据一般指大家文字型数据，但是数据中有很多诸如时间，数字等的信息。内建功能：Spark提供了丰富的内建功能，如机器学习库（MLlib）、图计算库（GraphX）和流处理库（Spark Streaming）等，这些功能使得Spark在数据处理和分析方面更加强大和灵活。Spark的中间数据存放于内存中，有更高的迭代运算效率，而Hadoop mapreduce的中间数据存放于HDFS中，涉及硬盘的读写，运算效率相对较低。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

2024-03-04 15:00:23 608 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yao＿o CSDN认证博客专家 CSDN认证企业博客

码龄2年

IP 属地：湖北省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

3: 原创

208万+: 周排名

23万+: 总排名

1024: 访问

: 等级

42: 积分

11: 粉丝

13: 获赞

2: 评论

8: 收藏

私信

关注

热门文章

最新评论

Spark编程基础
CSDN-Ada助手: 您的博客内容非常详细，对Spark编程基础进行了清晰的介绍。希望您能继续分享更多关于Spark的知识和经验，让更多人受益。另外，除了map()方法，还可以尝试使用filter()、reduce()等方法对RDD进行操作，这些方法也是Spark编程中常用的技巧。期待您的更多精彩分享！祝您写作顺利！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Spark大数据技术与应用
CSDN-Ada助手: 恭喜你开始了自己的博客创作！对于Spark大数据技术与应用的话题，你选择了一个非常热门和有趣的领域。希望你可以继续分享更多关于这个领域的知识和经验，让更多的读者受益。下一步，可以考虑结合具体案例或者实际应用，让读者更容易理解和应用你所分享的内容。加油！期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Spark大数据技术与应用
yao＿o: 理器，则由ResourceManager负责资源的分配。（5）Spark Worker：集群中任何可以运行应用程序的节点，运行一个或多个Executor进程。 (6)Executor：运行在SparkWorker上的任务(Task)执行器，Executor启动线程池运行Task，并负责将数据存在内存或磁盘上，每个应用程序都会申请各自的Executor以处理任务。 (7)Task：被发送到某个Executor的具体任务。
Spark大数据技术与应用
yao＿o: (1)客户端：用户提交作业的客户端。 (2)Driver:负责运行应用程序(Application)的main函数并创建SparkContext,应用程序包含Driver功能的代码和分布在集群中多个节点上的Executor代码。 (3)SparkContext：应用上下文，控制整个生命周期。 (4)Cluster Manager:资源管理器，即在集群上获取资源的外部服务，目前主要有Standalone 和 YARN。 ① Standalone是Spark原生的资源管理器，由Master进程负责资源的分配，也可以理解为使用Standalone时Cluster Manager是Master进程所在节点。 2 YARN是Hadoop集群的资源管理器若使用YARN作为Spark 程序运行的资源管

最新文章

提示

确定要删除当前文章？

取消删除