spark
文章平均质量分 83
HD0do(迪答数据)
我已成魔
展开
-
spark读写Doris实现及Doris文档更新
了解spark读写doris两种方案实现及doris官方文档更新介绍,更多埋点会话id切分文章参考原创 2022-05-08 16:51:45 · 7159 阅读 · 1 评论 -
用户行为数据会话(session)切割及spark读写clickhouse完整实现
用户数据统计中会话切割实现,spark读写clickhouse及SQL方式实现session切割原创 2021-12-23 10:45:11 · 2101 阅读 · 0 评论 -
sparkSQL读取 MongoDB 中存储的嵌套JSON数据,并解析写入hive中
七夕之下,我却独自在此晚写下这一《spark读取MongoDB数据文章》,奈若何,奈若何.....原创 2021-08-14 22:59:07 · 1032 阅读 · 0 评论 -
spark WebuI查看spark作业的执行情况
我们在集群上运行了spark作业怎么看执行情况,作业执行时间,用到的那些算子,job具体的阶段划分等等信息,其实官方就已经很好的给我提供了这些信息查看的方式web界面;先来说一下实际中用到的这个解决的问题,工作中因为我要通过hive来进行数据分析,而用到的引擎就是spark,其中我用到了hive的自定义udf函数实现查到的数据发往kafka,但是因为不知道底层hive转换为spark的什么算子来执行,如果像collect算子,top等算子就会造成数据全部拉到driver端处理,就容易造成内存溢出,所以最原创 2021-05-22 16:00:42 · 2388 阅读 · 0 评论