自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 HBase持续学习

1.HBase 介绍特点:①是Hadoop生态中的数据库。②分布式的、可伸缩的、列式存储的内存数据库。③HBase中的表可以达到数十亿行,数百万列。(戏称为:高表)④HBase基于内存来进行CRUD操作的,速度块、效率高。⑤HBase内存中的数据最终是落地在HDFS之上的。⑥HBase表中的列没有类型的,都是字节数组。(没有RDBMS中的:varchar, int,date…)…...

2019-05-08 21:20:44 210

原创 实战开发:hbase行键设计及降低region热点的出现

在聊这个问题前,搞明白为什么要设计rowkey?(精心整理的说辞)Hbase 分布式 列式 内存数据库。有着很高的读写性能。在olap即时分析越来越发挥重要的作用,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。先谈几个原则:1.(为什么)Rowkey的长度原则Rowkey长度设计原则:Rowkey是一个二进制,Row...

2019-08-15 22:51:09 602

原创 集群规模、mysql与hbase区别

1. hbase与mysql的区别①定义:a)MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(此处以Innodb为例,不涉及别的存储引擎)。b)HBase:基于HDFS,支持海量数据读写(尤其是写),支持上亿行、上百万列的,面向列的分布式NoSql数据库。天然分布式,主从架构,不支持事务,不支持二级索引,不支...

2019-07-25 11:40:26 611

原创 sqoop导数据遇到的部分问题

在导入hive的时候,如果数据库中有blob或者text字段,会报错,解决方案:clob:在将数据由Oracle数据库导入到Hive时,发现带有clob字段的表的数据会错乱,出现一些字段全为NULL的空行。由于在项目中CLOB字段没有实际的分析用途,因此考虑将CLOB字段去掉。同时,为了防止CLOB字段产生一些问题,因此将HIVE中CLOB字段禁用,禁用的方式如下:[Hadoop@mast...

2019-07-25 11:37:18 2900

转载 Hadoop工程师面试题:使用linux命令完成文本处理

某个目录下有两个文件a.txt和b.txt,文件格式为(ip,username),列如:a.txt127.0.0.1 zhangsan127.0.0.1 wangxiaoer127.0.0.2 lisi127.0.0.3 wangwub.txt127.0.0.4 lixiaolu127.0.0.1 lisi每个文件至少100万行,请使用Linux命令完成如下工作:1)每个文件...

2019-07-25 11:09:44 390

原创 Hive grouping sets grouping_id cube rollup

CREATE EXTERNAL TABLE test_data (month STRING,day STRING,cookieid STRING) ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘,’stored as textfile location ‘/user/jc_rc_ftp/test_data’;select * from test_...

2019-06-19 19:43:38 127

原创 hive json字符串处理问题 (转载)

我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple。用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下:hive (def...

2019-06-19 10:45:59 2130

原创 javaAPI 操作Hbase基础篇

实体类 (使用了lombok框架)lombok框架(插件)该框架会根据注解,生成对应的getter/setter访问器,以及构造方法注解名 作用------------------------------------------------------------@Data ...

2019-05-08 21:00:16 354

原创 HDFS面试篇2

hdfs读写过程(一)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问namenode块的存储位置4)...

2019-04-26 09:49:36 475

原创 Hdfs面试篇01

体系结构(★★)hdfs的优点与缺点HDFS 具有以下优点:(1) 高容错性数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。(2) 适合批处理它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。(3) 适合大数据处理数据规模:能够处理数据规模达到 GB、TB、甚至PB级别...

2019-04-26 09:36:56 233

原创 Hadoop中job.setNumReduceTasks(0)方法

job.setNumReduceTasks(0)唯一影响的是map结果的输出方式 当job.setNumReduceTasks(0)时,即没有reduce阶段,此时唯一影响的就是map结果的输出方式如果有reduce阶段,map的结果被flush到硬盘,作为reduce的输入;reduce的结果将被OutputFormat的RecordWriter写到指定的地方(setOutputPath...

2019-04-24 14:16:21 1297

转载 java常用

一、Java 常用包java.lang–语言包:Java语言的基础类,包括Object类、Thread类、String、Math、System、Runtime、Class、Exception、Process等,是Java的核心类库java.util–实用工具包:Scanner、Date、Calendar、LinkedList、Hashtable、Stack、TreeSet等;java....

2018-09-12 08:22:09 88

转载 可视化日历

1;为了回顾熟悉一下关于Date类的为核心的一下关于时间日期的类,打一个小型的项目练练手, 这个基本上没有用到面向对象设计的思想,基本上还是用面向过程设计的思维方式,只需一个类,所有任务都是在main方法中完成的,单纯的就是练练手;熟悉一下过程;2;要达到怎样的效果;如图 这里写图片描述3;分析; 3.1;要从键盘输入,则需要接受;//先要获取键盘输入流; Scanner...

2018-09-07 08:36:05 228

转载 Map集合中value()方法与keySet()、entrySet()区别

在Map集合中values():方法是获取集合中的所有的值—-没有键,没有对应关系,KeySet(): 将Map中所有的键存入到set集合中。因为set具备迭代器。所有可以迭代方式取出所有的键,再根据get方法。获取每一个键对应的值。 keySet():迭代后只能通过get()取key entrySet():Set...

2018-09-07 07:58:56 170

转载 时间类

概述Date类是表示特定时间点的对象,精确到毫秒。 As of JDK 1.1, the Calendar class should be used to convert between dates and time fields and the DateFormat class should be used to format and parse date strings. The c...

2018-09-07 07:57:09 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除