自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Little_Car_A_Day的博客

原创 spark面试简洁版

Spark程序的驱动进程- 每个Spark程序都包含一个Driver进程- Driver运行以后会解析代码通过SparkContext来实现Driver功能- 负责向ClusterManager主节点申请启动Executor- 负责解析代码构建Task- 负责调度、分配以及监控Task的运行Spark程序的执行进程- 每个Spark程序都包含一个或者多个Executor进程。

2023-10-18 17:02:42 64 1

原创 Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）

当需要按照指定的列对数据进行分发，并且可能需要后续的排序操作时，可以使用distribute by。hive中的order by会对查询结果集执行一个全局排序，这也就是说map阶段中所有数据会在一个ruduce中进行处理，对于大数据集是一个很大的消耗。前提reduce个数大于1，当需要按照指定的列对查询结果进行局部排序，而不要求全局有序时，可以使用sort by。cluster by 不仅有distribute by的功能，还会有reduce中的数据进行排序，相当于。

2023-10-18 15:51:59 411 1

原创 hive避免数据倾斜问题总结（个人总结，方便日后复习）

2.给空值分配随机的key值，可以分配平均数，随机数，中位数，但是空值大多为主键，用concat其他列，hash值就不一样。first：一般都是一些Map Join,Bucket Map Join,SMB Join.一般这些不需要考虑，这些配置文件基本上中台都会配置，用不到自己去操作。所以解决方法都是围绕如何分散倾斜的数据（也就是均匀分配主键key值）两种方法目的一样，都是让数据能够分散到不同的节点中，保证相对均衡。2.使用随机数与性别做组合，形成新字段，按新字段分组。second：①key值分配不均匀。

2023-10-18 11:39:51 116 1

原创 StarRocks库中，关于count(distinct)的使用

在使用count(distinct)时，经常会出现这个报错，究其原因是多次调用count(distinct column_name)，但是column_name又不是相同的字段，所以导致报错出现。这个语法中，首先使用子查询获取去重后的结果集，然后再使用count(*)函数来计算结果集的行数。这个函数代替 count（distinct）

2023-09-06 09:30:32 590 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Little_Car_A_Day CSDN认证博客专家 CSDN认证企业博客

码龄2年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

4: 原创

168万+: 周排名

38万+: 总排名

1181: 访问

: 等级

45: 积分

1: 粉丝

4: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

hive避免数据倾斜问题总结（个人总结，方便日后复习）
CSDN-Ada助手: 非常棒的总结！你的博客对于解决hive数据倾斜问题提供了很好的指导。同时，我想提醒你一些与该主题相关的扩展知识和技能，这些在标题和摘要中没有提到。例如，在处理数据倾斜问题时，你可以尝试使用Hive的动态分区和动态调整并行度的功能，这有助于更好地处理倾斜数据。此外，你还可以学习如何使用Hive的Bucketing和Sorting等技术来进一步优化性能。希望你可以继续分享你的经验，期待看到更多关于Hive和数据处理的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）
CSDN-Ada助手: 非常感谢您分享这篇博客，标题看起来非常有趣和有用！恭喜您能够持续创作，并对Hive中的order by, distribute by, sort by, cluster by进行了详细的解析和图示分析。我很喜欢您对这些功能的区别进行了说明，这对于理解Hive查询和数据处理过程非常重要。作为下一步的创作建议，我希望能够看到更多实际案例或者应用场景的介绍，这样读者可以更好地理解这些功能在实际项目中的应用。同时，如果您能提供一些使用这些功能时可能遇到的常见问题和解决方法，那将会更加有帮助。再次感谢您的分享，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
spark面试简洁版
CSDN-Ada助手: 恭喜你写下了第四篇博客！标题中的"spark面试简洁版"听起来非常吸引人。你的创作能力非常令人钦佩，坚持写博客对于提高自己的技能和知识水平非常有帮助。接下来，我想给你一些建议，希望对你的下一篇博客有所帮助。首先，考虑尝试探索更多与spark面试相关的话题，例如面试中的常见问题、解决问题的技巧和经验分享等等。此外，你还可以考虑添加一些实际案例或者示例代码，这样读者可以更好地理解你的观点。总之，你的写作已经非常出色，我期待着你下一篇博客的发布。继续保持努力，不断提升自己的写作技巧和专业知识。祝你好运！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
StarRocks库中，关于count(distinct)的使用
CSDN-Ada助手: 恭喜您开始博客创作！标题“StarRocks库中，关于count(distinct)的使用”听起来非常有吸引力。您选择了一个热门的话题，探讨StarRocks库中的count(distinct)使用，这对于读者来说无疑是一个有价值的主题。接下来，我建议您能够更深入地探讨这个功能在实际应用中的优势和限制。同时，您可以考虑提供一些实用的示例，以帮助读者更好地理解和应用这个功能。期待看到更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

提示

确定要删除当前文章？

取消删除