自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 HBase数据库的元数据提取

在HBase数据库中,我总结的元数据总共包括两种数据,一是所有的表,二是表的元数据和表里面的部分样本数据。下面就是我进行元数据获取的步骤。1 连接到HBase我们要从zookeeper中去获取HBase里面的数据库相关数据,下面是连接的代码: 首先在Maven的pom.xml引入下面的依赖,记住引入的依赖的版本一定要大于等于你们集群使用的版本,之前就是引入低于集群版本的jar包,导致连不上。

2017-05-24 18:00:08 9294

原创 Hadoop 多输入和多输出研究(如何在Job History中获取相关信息)

Hadoop FileInputFormat多输入使用FileInputFormat来指定多个输入.当我们使用FileInputFormat.setInputPaths(JobConf conf, Path... inputPaths)FileInputFormat.addInputPaths(JobConf conf, String commaSeparatedPaths)来设定有多个输入路径的

2017-05-11 17:39:15 455

原创 Hadoop Parquet File 文件的读取

产生parquet数据这里通过Spark SQL来从CSV文件中读取数据,然后把这些数据存到parquet文件去。 SparkContext context = new SparkContext(new SparkConf().setMaster("local").setAppName("parquet")); SQLContext sqlCont

2017-05-11 14:10:48 5977 6

转载 Hadoop RCFile存储格式详解(源码分析、代码示例)

RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。 关键词:Record、Columnar、Key、Value。 RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子。 假设我们有这样一张9行3列的Hive数据...

2017-05-10 14:49:51 1132

原创 Hadoop Sequence File 文件的读取和写入

写入代码下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value. Configuration config = new Configuration(); FileSystem fs = FileSystem.get(conf); int i = 0; Path path = ne

2017-05-09 09:41:12 1006

转载 git checkout : You have local changes cannot switch branches&Entry would be overwritten by mege

摘要:分支切换在Git的使用中可谓是最重要的部分之一,而git checkout还经常被用于回滚当前工作目录——当然,也被用来做 分支切换。因此,这是出错率极高的命令。本文主要为你解析git checkout的两个如标题总的特殊错误,然后分析git checkout的回滚作用。When are not given, this command switches branch

2017-05-04 14:41:56 780

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除