自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小黑的博客

凡出言,信为先;诈与妄,奚可焉

  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

原创 Parquet存储格式

Parquet是一种列式存储格式,可用于Hadoop生态系统中的任何项目,无论选择何种数据处理框架,数据模型或编程语言。####特点:a、更高的压缩比parquet的gzip的压缩比率最高,若不考虑备份可以达到27倍。可能这也是spar parquet默认采用gzip压缩的原因吧。b、只读取需要的列,支持向量运算,能够获取更好的扫描性能跳过不符合条件的数据,只读取需要的数据,降低 IO ...

2019-04-26 17:48:46 1610

原创 spark 自定义分区

说明:将相同numPars分到一个分区class SouGouPartition(numPars : Int) extends Partitioner{ override def numPartitions: Int = numPars override def getPartition(key: Any): Int = { var code = key.hash...

2019-04-24 11:52:30 250

转载 HBase预分区

什么是预分区?HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。HBase表在刚刚被创建时,只有1个分区(region),当一个region过大(达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB)时,表将会进行split,分裂为2个分区。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响。预分区...

2019-04-24 09:35:46 189

原创 hive报错MetaException(message:An exception was thrown while adding/validating class

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column '...

2019-04-11 16:09:26 5083 3

转载 redis+mysql结合使用

redis-mysqlmysql:数据放在磁盘是关系型数据库,主要用于存放持久化数据,redis:数据放在内存 AOF:增量更新 RDB:覆盖是NOSQL,非关系型数据库,redis和mysql的区别总结(1)类型上从类型上来说,mysql是关系型数据库,redis是缓存数据库(2)作用上mysql用于持久化的存储数据到硬盘,功能强大,但是速度较慢redis用于存储使用较为频...

2019-04-09 21:42:15 10221

原创 MapReduce与Spark的shuffle的比较

对比方向MapReduceSparkHashcollect在内存中构造了一块数据结构用于map输出的缓冲区没有环形缓冲sortmap输出的数据排序map数据没有排序merge对磁盘上的多个spill文件最后进行合并成一个输出文件在map端没有merge过程,copy框架jettynetty或者直接socket流本地文件通过网络拖取数据...

2019-04-02 15:09:25 269 1

原创 Spark On Yarn的执行流程及应用场景

一、driver 运行在集群中(cluster模式)1、client 向 yarn 提交一个job2、ResouceManager 为该job在某个 NodeManager 上分配一个 ApplicationMaster,NM启动AppMaster,Appmaster 启动 driver3、ApplicationMaster 启动后完成初始化作业,driver 生成一系列task4、AM ...

2019-04-02 10:24:41 828

原创 Spark shuffle和mapreduce shuffle的区别

1.从整体功能上看,两者并没有大的差别。都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同的 reducer(Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask,也可能是 ResultTask)。Reducer 以内存作缓冲区,边 shuffle 边 aggregat...

2019-04-01 15:57:54 3269 1

表白源码,表白。。。。

网页表白源码,本地源码,表白,欢迎下载,送给你亲爱的她,可更改内容

2018-09-17

斐讯刷潘多拉K1固件 。

斐讯路由器K1刷潘多拉固件...................................如果所需积分过高,请留言

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除