spark深度解析:调度算法

基于spark1.3.1的源码解读 不得不佩服spark源码的精炼,standalone模式中,不到100行就搞定了资源调度,spark提供两种资源调度方式,尽量打散:即我们的executor会尽量的分配更多的worker上;尽量集中:即我们的executor会尽量的分配更少的worker上;这其...

2018-11-28 14:55:29

阅读数:48

评论数:0

【菜鸟系列】hbase(java)接口--基于hbase1.1.2

更多hbase简介:请查看hbase入门系列 传送门:https://blog.csdn.net/java_soldier/article/details/78776605 最近集群升级,开启kerberos认证,所有的应用都要改造,所以复习了下hbase的接口操作,代码见下方 先讲解下主要...

2018-06-15 17:36:36

阅读数:2429

评论数:0

【菜鸟系列】spark常用算子总结(java)--union,intersection,coalesce,repartition,cartesian,distinct

/** * union * 合并 */ JavaRDD rdd1 = jsc.parallelize(Arrays.asList(1,2,3,4,5,6,7),2); JavaRDD rdd2 = jsc.parallelize(Arrays.asList(1,21,31,41,51,61...

2018-06-08 16:03:10

阅读数:1488

评论数:0

【菜鸟系列】spark常用算子总结(scala、java)--map,flatMap,flatMapToPair

map,flatMap,flatMapToPair是最常用的算子,map算子的输入和输出是一对一的,也就是子RDD的分区与父RDD的分区时一对一的关系;flatMap是压平,输入和输出是一对多的关系;需要注意的是:scala版本的map可以将RDD转成PairRDD,但是在java版本中,这个功能...

2018-06-05 16:31:52

阅读数:2762

评论数:0

【菜鸟系列】spark常用算子总结(scala、java)--groupByKey,reduceByKey

groupByKey和reduceByKey是常用的聚合函数,作用的数据集为PairRDD scala reduceByKey函数原型 def reduceByKey(partitioner: Partitioner, func: (V, V) => V)...

2018-06-05 15:41:41

阅读数:2074

评论数:0

spark优化思路

最近发现spark作业运行速度很慢,发现executor实例数设置的太低,所以对job进行了优化 优化前:800G压缩文件 30分钟 优化后:800G压缩文件 2分钟 ======================== 参数优化: task的执行速度是跟每个Executor进程的CPU ...

2018-05-24 09:07:42

阅读数:1052

评论数:0

基于java api的spark常用算子

基于java api的spark常用算子

2018-03-26 14:41:42

阅读数:92

评论数:0

kafka性能分析

来自《kafka高性能解析》的整理,很好,很全面

2017-12-25 17:06:07

阅读数:8604

评论数:0

inux shell脚本攻略06-循环结构、选择结构、算术比较、字符串比较

for 循环 for var in list do commands done echo {1…50}能够生成一个数字列表,echo{a…z}生成小写字母列表 for var in {A..Z} do commands done 也可以采用c语言的写法 for((i=0;i&...

2018-10-27 15:28:22

阅读数:26

评论数:0

linux shell脚本攻略05-字段分隔符

内部字段分隔符(Internal Field Separator,IFS)存储定界符的环境变量,IFS默认符为空白字符(换行符,制表符,或者空格) 比如一个数据为逗号分隔 data="name,age,rollno,location" 如果直接输出 for i...

2018-10-27 15:23:55

阅读数:34

评论数:0

linux shell脚本攻略04-将命令序列的输出读入变量,管道

ls | cat -n > out.txt ①子shell的方式 output=$(ls |cat -n) ②反引用 output=`ls | cat -n` 第一种方式是子shell的这种方式,利用子shell生成一个独立的进程,可以使用()操...

2018-10-27 15:21:48

阅读数:39

评论数:0

linux shell脚本攻略03-数组与关联数组

定义数组 ①单行中使用一列值来定义一个索引 array_var=(1 2 3 4 5 6),这些值会被存储在以0为起始索引的连续位置上 ②还可以将数组定义成一组“索引-值” array_var[0]="test1" array_var[1]=&quot...

2018-10-27 15:20:09

阅读数:24

评论数:0

linux shell脚本攻略02-算术运算

bash shell环境中,可以使用let 、(()) 、[]执行基本的算术运算,而在进行高级操作时,也可以用expr、bc两个工具 (1)let命令,当使用let的时候,变量前面不需要加$ let result=no1+no2 echo ${result} 自加自减操作 let no1++ l...

2018-10-27 15:18:01

阅读数:20

评论数:0

linux shell脚本攻略01-文件描述符和重定向

文件描述符是与某个打开的文件或数据流相关联的整数,文件描述符0、1、2是系统预留的 标准输入(stdin)----------0 标准输出(stdout)---------1 标准错误(stderr)----------2 覆盖 echo “hello world” &a...

2018-10-27 15:07:44

阅读数:19

评论数:0

sparkstreaming控制消费速率

反压机制: spark1.5以后,通过动态收集系统的一些数据来自动的适配集群数据处理能力 在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time >...

2018-10-25 18:19:01

阅读数:175

评论数:0

记一次Kafka生产问题

最近北京电信的生产服务器突然间磁盘报警,发现是kafka-log的__consumer__offsets–55数据量过大导致,这个topic是kafka记录偏移量的主题,这个分区的数据量达到3.1个T; 默认配置server.conf里的核心配置项 #最大日志保留大小 log.retention....

2018-10-16 11:13:15

阅读数:31

评论数:0

反射小结

1.简单的来说,反射机制指的是程序在运行时能够获取自身的信息。在java中,只要给定类的名字, 那么就可以通过反射机制来获得类的所有信息。 2. 通过类的class文件获取类或者类对象 常用方法: 获取类的class文件:①peopleClass = Class.forName(People); ...

2018-09-18 18:01:10

阅读数:26

评论数:0

hive sql注意事项

如果是按时间分区的表,查询时一定要使用分区限制,如果没有分区限制,会从该表的所有数据里面遍历。 注意sql中or的使用,or 这个逻辑必须单独括起来,否则可能引起无分区限制,下面举个例子,想查询到的是gd或gx的某天的数据。 Select x from t where ds=d1 and pr...

2018-08-04 14:37:19

阅读数:98

评论数:0

shell特殊变量-$?,$@,$*,$$,$n等

$0 : 输出函数或脚本的名字 $n : 输出函数或脚本的第n个参数 $$ :输出当前shell所属的pid ,可通过这个命令获取shell运行时的pid $# :输出函数或脚本的输入参数个数 $@ :输出函数或脚本的输入参数 $* :输出函数或脚本的输入参数 $* 和 $@ 都表...

2018-06-20 13:40:28

阅读数:1401

评论数:0

linux常用命令-文件编辑类(cat,vim,more)

cat 描述: 将数据显示到基本输出中 参数: -n:显示行号(包括空行) -b:显示行号(不包括空行) -s:将两个及以上空行合并为一个空行 样例: cat -sb a.txt b.txt >> c.txt 将a.txt,b.txt的数...

2018-06-20 10:42:58

阅读数:2172

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭