spark_少年阿宏的博客-CSDN博客

spark

关注

关注数：文章数：7 文章阅读量：3129 文章收藏量：5

作者: 少年阿宏

“总有一天你将破蛹而出，成长得比人们期待的还要美丽。但这个过程会很痛，会很辛苦，有时候还会觉得灰心。面对着汹涌而来的现实，觉得自己渺小无力。但这，也是生命的一部分。做好现在你能做的，然后，一切都会好的。我们都将孤独地长大，不要害怕。”

展开

zk、hbase、redis保存Sparkstreaming 的offset

一、zk: import cn.qphone.spark.`trait`.LoggerTraitimport cn.qphone.spark.utils.{CommonUtils, SparkUtils}import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.Strin...

转载 2021-01-12 15:09:18 · 168 阅读 · 0 评论
在idea跑spark程序日志信息太多？

//写一个父类 class LoggerTrait{ Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN) Logger.getLogger("org.spark_project").setLevel(Level.WARN) } //Spark程序继承父类就好了

原创 2020-12-14 10:44:31 · 402 阅读 · 0 评论
spark-core对元组RDD数据排序

MapRDD.collect().sortwith{ case((a1,b1,c1),(a2,b2,c2))=> b1<b2 } //用collect将元组数据聚成数组，按数组元素里的字段排序

原创 2020-12-12 19:55:14 · 358 阅读 · 0 评论
引起shuffle的几种算子

//去重 def distinct() def distinct(numPartitions: Int) //聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] def groupBy[K](f: T => K, p: Partitioner):RDD[

转载 2020-12-04 19:53:42 · 690 阅读 · 0 评论
spark任务执行流程少年阿宏超详细版

被百度大佬深深折服,回头重新复兴一遍spark 少年阿宏版超详细理解spark任务执行的过程,不喜勿喷 Driver就是我们写的spark程序,打成jar包后通过spark-submit来提交.-------少年阿宏 standalone模式下: driver进程启动后,首先会构建sparkcontext，sparkcontext主要包含两部分：DAGScheduler和 TaskScheduler,然后TaskScheduler会寻找集群资源管理器(Master/Worker)的Master节点，Mas

原创 2020-12-04 19:15:14 · 295 阅读 · 0 评论
spark_解析json文件_并数据统计

有数据文件如下,数据信息代表 { "ct": "2020-08-24", "region_code": "okv7rn", "num": 77723, "age": 97, "gender": 1, "salary": 69749.55, "name": "b" } selecct from dataRDD groupby region_code,gender 需求：假设数据为某一天的数据，同时没有相同的人 1 统计【性别】、【不同地区】的最高工

原创 2020-10-23 18:09:06 · 459 阅读 · 0 评论
执行一个简单的sparkdemo,报错Connection reset by peer spark

解决网上找资料，将Localhost 修改为ip地址，不管用，重新配置了ssh，也不管用，那个郁闷，差点要namenode format掉了，后来，又了解了一下所有的配置过程，在一次无意的机会下，发现区别在于Logs文件夹下有很多其他的数据，难道是这个原因？将Logs文件夹下所有的文件删除掉，在启动dfs，启动成功 ...

原创 2020-10-20 09:26:20 · 757 阅读 · 1 评论

spark

作者: 少年阿宏

zk、hbase、redis保存Sparkstreaming 的offset

在idea跑spark程序日志信息太多？

spark-core对元组RDD数据排序

引起shuffle的几种算子

spark任务执行流程少年阿宏超详细版

spark_解析json文件_并数据统计

执行一个简单的sparkdemo,报错Connection reset by peer spark