![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop-System
露落梨花
联系加Q群:1009837046
展开
-
关于hbase的HBaseAdmin对象的创建,新旧版本对比
一、hbase的java API在重写以前的代码的时候,换了新版本的hbase,导致出现了很多问题,在此记录一下,新旧版本创建HBaseAdmin的方式二、旧的版本创建的HBaseAdmin里面传入的是configuration。import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import o原创 2020-06-12 14:53:43 · 2846 阅读 · 1 评论 -
Hadoop基础入门
1、hadoop的产生? 是指传统的数据处理应用软件不足以处理(存储和计算)他们的大而复杂的数据2、单位的衡量:bit 、byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 据国际数据公司(IDC)统计,全球数据总量预计 2020 年达到 44ZB,中国数据量将达到 8060EB,占全球数据总量的 18%3、大数据特点:容量大...原创 2018-07-31 00:03:19 · 285 阅读 · 0 评论 -
kafka-spark-hive
1、场景介绍:数据发往kafka(500亿条每天),用spark读取kafka的数据,写入到hive表里面(ORC压缩算法,一个分区字段)2、hive的介绍:hive表是分区表分区的字段是一个,想要使用动态分区,hive的压缩算法是ORC FILE 使用spark的组件spark streaming 可以流式的读取kafka的数据,并且直接写入到HDFS上。首先说一...原创 2019-08-30 15:56:48 · 625 阅读 · 0 评论