- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 Parquet存储格式
Parquet是一种列式存储格式,可用于Hadoop生态系统中的任何项目,无论选择何种数据处理框架,数据模型或编程语言。####特点:a、更高的压缩比parquet的gzip的压缩比率最高,若不考虑备份可以达到27倍。可能这也是spar parquet默认采用gzip压缩的原因吧。b、只读取需要的列,支持向量运算,能够获取更好的扫描性能跳过不符合条件的数据,只读取需要的数据,降低 IO ...
2019-04-26 17:48:46 1610
原创 spark 自定义分区
说明:将相同numPars分到一个分区class SouGouPartition(numPars : Int) extends Partitioner{ override def numPartitions: Int = numPars override def getPartition(key: Any): Int = { var code = key.hash...
2019-04-24 11:52:30 250
转载 HBase预分区
什么是预分区?HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。HBase表在刚刚被创建时,只有1个分区(region),当一个region过大(达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB)时,表将会进行split,分裂为2个分区。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响。预分区...
2019-04-24 09:35:46 189
原创 hive报错MetaException(message:An exception was thrown while adding/validating class
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column '...
2019-04-11 16:09:26 5083 3
转载 redis+mysql结合使用
redis-mysqlmysql:数据放在磁盘是关系型数据库,主要用于存放持久化数据,redis:数据放在内存 AOF:增量更新 RDB:覆盖是NOSQL,非关系型数据库,redis和mysql的区别总结(1)类型上从类型上来说,mysql是关系型数据库,redis是缓存数据库(2)作用上mysql用于持久化的存储数据到硬盘,功能强大,但是速度较慢redis用于存储使用较为频...
2019-04-09 21:42:15 10221
原创 MapReduce与Spark的shuffle的比较
对比方向MapReduceSparkHashcollect在内存中构造了一块数据结构用于map输出的缓冲区没有环形缓冲sortmap输出的数据排序map数据没有排序merge对磁盘上的多个spill文件最后进行合并成一个输出文件在map端没有merge过程,copy框架jettynetty或者直接socket流本地文件通过网络拖取数据...
2019-04-02 15:09:25 269 1
原创 Spark On Yarn的执行流程及应用场景
一、driver 运行在集群中(cluster模式)1、client 向 yarn 提交一个job2、ResouceManager 为该job在某个 NodeManager 上分配一个 ApplicationMaster,NM启动AppMaster,Appmaster 启动 driver3、ApplicationMaster 启动后完成初始化作业,driver 生成一系列task4、AM ...
2019-04-02 10:24:41 828
原创 Spark shuffle和mapreduce shuffle的区别
1.从整体功能上看,两者并没有大的差别。都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同的 reducer(Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask,也可能是 ResultTask)。Reducer 以内存作缓冲区,边 shuffle 边 aggregat...
2019-04-01 15:57:54 3269 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人