大数据
绿水兰田
这个作者很懒,什么都没留下…
展开
-
Spark读写HBase
sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])注:默认partition个数等于hbase表region个数 可通过重写TableInputFormat的getStartEndKeys方法实现自定义分区例:publi...原创 2018-05-28 14:52:33 · 632 阅读 · 3 评论 -
MapReduce写Redis
https://content.pivotal.io/blog/making-hadoop-mapreduce-work-with-a-redis-cluster原创 2018-05-28 14:53:57 · 1308 阅读 · 0 评论 -
spark streaming 自定义checkpoint实现
object CustomKafkaUtils { val log: Logger = LoggerFactory.getLogger(this.getClass) /** * 从checkpoint路径下获取kafka offset,并创建stream */ def createDirectStream[ K: ClassT...原创 2019-04-09 10:47:26 · 259 阅读 · 0 评论 -
spark读取经thrift序列化的parquet格式文件
读取普通parquet格式文件ParquetReader.builder(new GroupReadSupport(), new Path("xxxx")).build()读取parquet存储格式的thrift对象def createReader[V <: TBase[_,_]](path: String, vClass: Class[V]): ParquetReader[...原创 2019-04-15 11:10:01 · 1231 阅读 · 0 评论