![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
少年阿宏
“总有一天你将破蛹而出,成长得比人们期待的还要美丽。但这个过程会很痛,会很辛苦,有时候还会觉得灰心。面对着汹涌而来的现实,觉得自己渺小无力。
但这,也是生命的一部分。做好现在你能做的,然后,一切都会好的。我们都将孤独地长大,不要害怕。”
展开
-
zk、hbase、redis保存Sparkstreaming 的offset
一、zk: import cn.qphone.spark.`trait`.LoggerTraitimport cn.qphone.spark.utils.{CommonUtils, SparkUtils}import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.Strin...转载 2021-01-12 15:09:18 · 168 阅读 · 0 评论 -
在idea跑spark程序日志信息太多?
//写一个父类 class LoggerTrait{ Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN) Logger.getLogger("org.spark_project").setLevel(Level.WARN) } //Spark程序继承父类就好了原创 2020-12-14 10:44:31 · 402 阅读 · 0 评论 -
spark-core对元组RDD数据排序
MapRDD.collect().sortwith{ case((a1,b1,c1),(a2,b2,c2))=> b1<b2 } //用collect将元组数据聚成数组,按数组元素里的字段排序原创 2020-12-12 19:55:14 · 358 阅读 · 0 评论 -
引起shuffle的几种算子
//去重 def distinct() def distinct(numPartitions: Int) //聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] def groupBy[K](f: T => K, p: Partitioner):RDD[转载 2020-12-04 19:53:42 · 690 阅读 · 0 评论 -
spark任务执行流程少年阿宏超详细版
被百度大佬深深折服,回头重新复兴一遍spark 少年阿宏版超详细理解spark任务执行的过程,不喜勿喷 Driver就是我们写的spark程序,打成jar包后通过spark-submit来提交.-------少年阿宏 standalone模式下: driver进程启动后,首先会构建sparkcontext,sparkcontext主要包含两部分:DAGScheduler和 TaskScheduler,然后TaskScheduler会寻找集群资源管理器(Master/Worker)的Master节点,Mas原创 2020-12-04 19:15:14 · 295 阅读 · 0 评论 -
spark_解析json文件_并数据统计
有数据文件如下,数据信息代表 { "ct": "2020-08-24", "region_code": "okv7rn", "num": 77723, "age": 97, "gender": 1, "salary": 69749.55, "name": "b" } selecct from dataRDD groupby region_code,gender 需求:假设数据为某一天的数据,同时没有相同的人 1 统计【性别】、【不同地区】的最高工原创 2020-10-23 18:09:06 · 459 阅读 · 0 评论 -
执行一个简单的sparkdemo,报错Connection reset by peer spark
解决 网上找资料,将Localhost 修改为ip地址,不管用,重新配置了ssh,也不管用,那个郁闷,差点要namenode format掉了,后来,又了解了一下所有的配置过程,在一次无意的机会下,发现区别在于Logs文件夹下有很多其他的数据,难道是这个原因?将Logs文件夹下所有的文件删除掉,在启动dfs,启动成功 ...原创 2020-10-20 09:26:20 · 757 阅读 · 1 评论