- 博客(10)
- 收藏
- 关注
原创 idea maven 任何不明错误,考虑idea的jdk版本配置
org.apache.maven.plugins:maven-compiler-plugin:3.6.2:compile (default-compile) on project dc-common:idea坑爹的地方,一个jdk版本,要设置n多个地方,真是烦透了,不知道是哪个弱智搞的,如果idea maven莫名出现编译失败,致命错误,或是文件被占用,或是@Data的属性无法set值,那么要考虑是不是idea的jdk版本问题,这次有知道shit idea还有一个关于jdk版本的设置,setti
2021-11-29 18:22:28 203
原创 bigdata
一般来说hadoop hdfs有12个盘,每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下,resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager(占用cpu资源)和datanode(占用硬盘资源)同时部署一台机器,充分利用资源,另外有可能方便数据计算从本地取oracle几千万数据放到hdfs,存成orc或parquet,使用presto或...
2021-11-29 18:18:39 196
原创 hdfs配置
一般来说hadoop hdfs有12个盘,每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下,resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager(占用cpu资源)和datanode(占用硬盘资源)同时部署一台机器,充分利用资源,另外
2021-11-29 18:17:14 165
原创 sortBy是一个action
val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]") //创建spark执行的入口 val sc = new SparkContext(conf) //指定以后从哪里读取数据创建RDD(弹性分布式数据集) val lines: RDD[String] = sc.textFile("/D:/a.txt") //切分压平 val words: RDD[S...
2020-05-20 13:56:37 236
原创 spark join 何时不shuffle
val a = sc.parallelize(Array(("A",1),("B",1),("B",1),("C",1),("C",1),("D",1),("E",1)),3) val b = sc.parallelize(Array(("A",1),("B",1),("C",1),("E",1),("F",1)),3) val a1 = a.reduceByKey(_+_,2) val b1 = b.reduceByKey(_+_,3) val joinRdd ...
2020-05-13 17:40:16 439
原创 spark多阶段任务
import org.apache.spark.rdd.RDD val lines: RDD[String] = sc.parallelize(List("A B C","A B D"),3) //切分压平 val words: RDD[String] = lines.flatMap(_.split(" ")) //将单词和1组合 val wordAndOne: RDD[(String, Int)] = words.map((_, 1)) val...
2020-05-13 11:45:21 177
原创 spark程序运行,到底会有多少task产生?
//创建spark配置,设置应用程序名字 val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") //创建spark执行的入口 val sc = new SparkContext(conf) val rdd = sc.parallelize(1 to 4,3) val rdd1 = rdd.map(x => { println(x + "--rdd1-----...
2020-05-12 19:01:22 734 1
原创 spark基础认识
1,通过scala 集合方式parallelize生成rdd,如, val rdd = sc.parallelize(1 to 10) 等价sc.parallelize(List(1,2,3,4,5,6))这种方式下,如果在parallelize操作时没有指定分区数,则rdd的分区数 = sc.defaultParallelism可以手动指定c.parallelize(List(1,2,3,4,5,6),4) 指定4个分片,如果list里的元素不够4个,那么会有一些分片是空的..
2020-05-11 09:57:30 301
原创 关于ScheduledExecutorService
最好是一个定时任务就一个线程,否则多个定时任务用一个线程,会导致延迟的情况 线程数用一个线程 ScheduledExecutorService service = ExecutorBuilder.newScheduledThreadPool(1, "test");任务睡5秒class MyTask implements Runnable{ int no ; public MyTa
2017-02-23 15:01:17 236
原创 java类在idea上的撞见的奇葩问题
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-02-07 14:58:16 295
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人