- 博客(0)
- 资源 (5)
- 收藏
- 关注
Spark2.0新特性
* 通过whole-stage code generation(全流程代码生成)技术将spark sql和dataset的性能提升2~10倍
* 通过vectorization(向量化)技术提升parquet文件的扫描吞吐量
* 提升orc文件的读写性能
* 提升catalyst查询优化器的性能
* 通过native实现方式提升窗口函数的性能
* 对某些数据源进行自动文件合并
2018-12-19
Spark的shuffle调优
spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲,代表了每个reduce task每次能够拉取的map side数据最大大小,如果内存充足,可以考虑加大,从而减少网络传输次数,提升性能
spark.shuffle.blockTransferService netty shuffle过程中,传输数据的方式,两种选项,netty或nio,spark 1.2开始,默认就是netty,比较简单而且性能较高,spark 1.5开始nio就是过期的了,而且spark 1.6中会去除掉
spark.shuffle.compress true 是否对map side输出的文件进行压缩,默认是启用压缩的,压缩器是由spark.io.compression.codec属性指定的,默认是snappy压缩器,该压缩器强调的是压缩速度,而不是压缩率
2018-12-19
sqoop-1.4.6-cdh5.13.2.tar
sqoopCDH版本
1、sqoop的解压并配置环境变量:
tar -zxvf /bigdata/sqoop-1.4.6-cdh5.13.2.tar.gz -C /usr/local
配置环境变量:
vi /etc/profile
export SQOOP_HOME=/usr/local/sqoop-1.4.6-cdh5.13.2
export PATH=$PATH:$SQOOP_HOME/bin:
重新加载环境变量:
source /etc/profile
which sqoop
2、配置sqoop的环境配置文件:
mv /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.template.sh /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh
vi /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh
export HADOOP_COMMON_HOME=/usr/local/hadoop-2.6.0-cdh5.13.2
export HADOOP_MAPRED_HOME=/usr/local/hadoop-2.6.0-cdh5.13.2
export HBASE_HOME=/usr/local/hbase-1.2.0-cdh5.13.2
export HIVE_HOME=/usr/local/hive-1.1.0-cdh5.13.2
#export ZOOCFGDIR=
3、将mysql的驱动包copy到sqoop目录中的lib目录下:
cp /bigdata/mysql-connector-java-5.1.32.jar /usr/local/sqoop-1.4.6-cdh5.13.2/lib
4、测试
sqoop version
2018-12-19
flume-ng-1.6.0-cdh5.13.2
CDH版本的flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。
2018-12-19
JDBC常用连接池 c3p0 BDCP Druid
开发时常用的连接池jar包
C3P0是一个开放源代码的JDBC连接池,它在lib目录中与Hibernate一起发布,包括了实现jdbc3和jdbc2扩展规范说明的Connection 和Statement 池的DataSources 对象
DBCP (Database Connection Pool)是一个依赖Jakarta commons-pool对象池机制的数据库连接池,Tomcat的数据源使用的就是DBCP。目前 DBCP 有两个版本分别是 1.3 和 1.4。1.3 版本对应的是 JDK 1.4-1.5 和 JDBC 3,而1.4 版本对应 JDK 1.6 和 JDBC 4。因此在选择版本的时候要看看你用的是什么 JDK 版本了,功能上倒是没有什么区别
还有阿里的Druid
2018-12-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人