2019年04月_一个不会写代码的小黑

10月 09月 07月 06月 05月 04月 03月 02月 01月

原创 Parquet存储格式

Parquet是一种列式存储格式，可用于Hadoop生态系统中的任何项目，无论选择何种数据处理框架，数据模型或编程语言。####特点：a、更高的压缩比parquet的gzip的压缩比率最高，若不考虑备份可以达到27倍。可能这也是spar parquet默认采用gzip压缩的原因吧。b、只读取需要的列，支持向量运算，能够获取更好的扫描性能跳过不符合条件的数据，只读取需要的数据，降低 IO ...

2019-04-26 17:48:46 1610

原创 spark 自定义分区

说明：将相同numPars分到一个分区class SouGouPartition(numPars : Int) extends Partitioner{ override def numPartitions: Int = numPars override def getPartition(key: Any): Int = { var code = key.hash...

2019-04-24 11:52:30 250

什么是预分区？HBase提供了预分区功能，即用户可以在创建表的时候对表按照一定的规则分区。HBase表在刚刚被创建时，只有1个分区（region），当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB）时，表将会进行split，分裂为2个分区。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的性能有巨大的影响。预分区...

2019-04-24 09:35:46 189

原创 hive报错MetaException(message:An exception was thrown while adding/validating class

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column '...

2019-04-11 16:09:26 5083 3

转载 redis+mysql结合使用

redis-mysqlmysql：数据放在磁盘是关系型数据库，主要用于存放持久化数据，redis：数据放在内存 AOF：增量更新 RDB：覆盖是NOSQL，非关系型数据库，redis和mysql的区别总结（1）类型上从类型上来说，mysql是关系型数据库，redis是缓存数据库（2）作用上mysql用于持久化的存储数据到硬盘，功能强大，但是速度较慢redis用于存储使用较为频...

2019-04-09 21:42:15 10221

原创 MapReduce与Spark的shuffle的比较

对比方向MapReduceSparkHashcollect在内存中构造了一块数据结构用于map输出的缓冲区没有环形缓冲sortmap输出的数据排序map数据没有排序merge对磁盘上的多个spill文件最后进行合并成一个输出文件在map端没有merge过程，copy框架jettynetty或者直接socket流本地文件通过网络拖取数据...

2019-04-02 15:09:25 269 1

原创 Spark On Yarn的执行流程及应用场景

一、driver 运行在集群中（cluster模式）1、client 向 yarn 提交一个job2、ResouceManager 为该job在某个 NodeManager 上分配一个 ApplicationMaster，NM启动AppMaster，Appmaster 启动 driver3、ApplicationMaster 启动后完成初始化作业，driver 生成一系列task4、AM ...

2019-04-02 10:24:41 828

原创 Spark shuffle和mapreduce shuffle的区别

1.从整体功能上看，两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask）。Reducer 以内存作缓冲区，边 shuffle 边 aggregat...

2019-04-01 15:57:54 3269 1

表白源码，表白。。。。

网页表白源码，本地源码，表白，欢迎下载,送给你亲爱的她，可更改内容

2018-09-17

斐讯刷潘多拉K1固件。

斐讯路由器K1刷潘多拉固件...................................如果所需积分过高，请留言

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

小黑的博客

原创 Parquet存储格式

原创 spark 自定义分区

转载 HBase预分区

原创 hive报错MetaException(message:An exception was thrown while adding/validating class

转载 redis+mysql结合使用

原创 MapReduce与Spark的shuffle的比较

原创 Spark On Yarn的执行流程及应用场景

原创 Spark shuffle和mapreduce shuffle的区别

表白源码，表白。。。。

斐讯刷潘多拉K1固件。

空空如也

表白源码，表白。。。。

斐讯刷潘多拉K1固件 。

空空如也

斐讯刷潘多拉K1固件。