- 博客(3)
- 收藏
- 关注
转载 Hbase 热点(数据倾斜)问题解决方案---rowkey散列和预分区设计
转载自http://student-lp.iteye.com/blog/2309075 Hbase 热点(数据倾斜)问题解决方案---rowkey散列和预分区设计 hbase数据倾斜 hbase热点问题 rowke
2017-06-22 21:09:47 3339
原创 Spark分组二次排序
在运用Spark数据处理中,有时要对数据进行分组(二次)排序。数据存储在HDFS中。实现代码如下:package com.ibeifeng.spark.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable
2017-06-14 21:42:25 1365
原创 Spark 第三方jar包依赖解决方案
在进行Spark开发和学习中,有时会遇到缺包或找不到类的情况,或是需要自定义扩展一些功能,那么我们就要了解第三方jar包依赖解决方案,今天抽空总结一下各种解决方案和适用场景。一. 将第三方的jar文件打包到应用jar文件中 使用场景:第三方jar文件比较小,依赖的spark应用比较少 二. 使用参数–jars给定依赖jar文件 要求jar文件在driv
2017-06-05 11:54:50 4997 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人