- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 spark调优点
spark调优详解Apache Spark 内存管理详解(转载)Spark性能优化指南——基础篇(转载)Spark性能优化指南——高级篇(转载)Spark官方调优文档翻译(转载)一、开发调优1、RDD复用与持久化2、避免使用shuffle算子 join操作,rdd1.join(rdd2)===>>>rdd较小的情况下,可以通过 ...
2019-02-18 10:50:42 348
原创 linux命令
linux 基础命令使用1、awk工具使用awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file//匹配代码块,可以说正则或者字符串[-F|-f|-v] 大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=value$0 表示整个当前行$1 每行第一个字段N...
2018-11-16 16:11:52 120
原创 Kafka组件connector使用详解
1、文件准备:应用程序=>kafka.connector.hbase.jar日志配置=>connect-log4j.propertiesWork启动配置=>connect-distributed.properties2、文件日志配置:log4j.rootLogger=INFO, stdout,debuglog4j.appender.stdout...
2018-09-13 18:27:16 8682 1
原创 kafka定位offset并重置
1、定位offsetP2P.tbBorrowerBilldemo=>查找分区下的log 分区3执行(建议把分区文件复制到外面,再进行转换!)./kafka-run-class.sh kafka.tools.DumpLogSegments --files /opt/data/kafka//logs/P2P-3/00000000000223999853.log --print-...
2018-08-27 18:50:40 4826
原创 Hbase 基础&调优
Hbase存储要点:1、三维有序rowkey排序、列簇类有序、时间戳倒序2、行分割在行的方向上进行分割将一定的行放在同一个region,随着行的增多,会进行拆分,并将region分布到各个HRegionServer中3、分布式存储单位HRegion是分布式存储和负载均衡最小单位,不同的HRegion可以分配到不同的HRegionServer4、存储单位HRe...
2018-03-31 15:21:49 239
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人