- 博客(11)
- 收藏
- 关注
原创 【菜鸟系列】hbase(java)接口--基于hbase1.1.2
更多hbase简介:请查看hbase入门系列 传送门:https://blog.csdn.net/java_soldier/article/details/78776605 最近集群升级,开启kerberos认证,所有的应用都要改造,所以复习了下hbase的接口操作,代码见下方先讲解下主要的接口类HBaseConfiguration org.apache.hadoop.hbas...
2018-06-15 17:36:36 5058 2
原创 【菜鸟系列】spark常用算子总结(java)--union,intersection,coalesce,repartition,cartesian,distinct
/** * union * 合并 */JavaRDD rdd1 = jsc.parallelize(Arrays.asList(1,2,3,4,5,6,7),2);JavaRDD rdd2 = jsc.parallelize(Arrays.asList(1,21,31,41,51,61,7),2);JavaRDD rdd3 = rdd1.union(rdd2);//System.o...
2018-06-08 16:03:10 2021
原创 【菜鸟系列】spark常用算子总结(scala、java)--map,flatMap,flatMapToPair
map,flatMap,flatMapToPair是最常用的算子,map算子的输入和输出是一对一的,也就是子RDD的分区与父RDD的分区时一对一的关系;flatMap是压平,输入和输出是一对多的关系;需要注意的是:scala版本的map可以将RDD转成PairRDD,但是在java版本中,这个功能是通过mapToPair函数实现的,需要实现PairFunction函数;scala版本没有flatM...
2018-06-05 16:31:52 6190 2
原创 【菜鸟系列】spark常用算子总结(scala、java)--groupByKey,reduceByKey
groupByKey和reduceByKey是常用的聚合函数,作用的数据集为PairRDDscala reduceByKey函数原型 def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = self.withScope { combineByKeyWithClassTa...
2018-06-05 15:41:41 4542
原创 shell特殊变量-$?,$@,$*,$$,$n等
$0 : 输出函数或脚本的名字$n : 输出函数或脚本的第n个参数$$ :输出当前shell所属的pid ,可通过这个命令获取shell运行时的pid$# :输出函数或脚本的输入参数个数$@ :输出函数或脚本的输入参数$* :输出函数或脚本的输入参数$* 和 $@ 都表示传递给函数或脚本的所有参数,不被双引号(" ")包含时,都以"$1" "$2" … "$n" 的形式...
2018-06-20 13:40:28 1942
原创 linux常用命令-文件编辑类(cat,vim,more)
cat 描述: 将数据显示到基本输出中 参数: -n:显示行号(包括空行) -b:显示行号(不包括空行) -s:将两个及以上空行合并为一个空行 样例: cat -sb a.txt b.txt >> c.txt 将a.txt,b.txt的数据加上行号,追加到c.txt中,将两个及以上空行合并为一个空行[jiangt@BDI10 command]$ cat -sb 1....
2018-06-20 10:42:58 8165
原创 hbase快速入门文章传送门
归纳hbase文章入口hbase快速入门之—简介 https://blog.csdn.net/java_soldier/article/details/78776605hbase快速入门之—逻辑视图 https://blog.csdn.net/java_soldier/article/details/78776647hbase快速入门之—物理存储 https://blog.csd...
2018-06-15 17:43:25 940
原创 redis事务
redis的事务不同于关系型数据库的事务,不完全遵从ACID的4个特点;redis事务是指可以一次执行多个命令。 ● 批量操作在发送 EXEC 命令前被放入队列缓存。 ● 收到 EXEC 命令后进入事务执行,事务中任意命令执行失败,其余的命令依然被执行。 ● 在事务执行过程,其他客户端提交的命令请求不会插入到事务执行命令序列中。一个redis事务从开始到结束经过三个过程: ...
2018-06-08 11:47:49 1647
原创 sparkStreaming连接kafka(Direct)
http://blog.csdn.net/erfucun/article/details/52275369//创建JavaStreamingContext JavaStreamingContext jsc = createJavaStreamingContext(null, appName, batchDurationWithSeconds);//kafkaParams 封装了kafka...
2018-06-04 09:26:00 2189
原创 spark-streaming连接kafka(receiver)
package com.asiainfo.spark.streamingimport org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.kafka.KafkaUtils import org...
2018-06-04 09:25:16 1750
原创 sparkEnv的初始化
SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下: 1) 创建安全管理器SecurityManager; 2) 创建基于Akka的分布式消息系统ActorSystem; 3) 创建Map任务输出跟踪器mapOutputTracker; 4) 实例化Shuffl...
2018-06-04 09:22:54 1570
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人