- 博客(15)
- 收藏
- 关注
原创 HBase持续学习
1.HBase 介绍特点:①是Hadoop生态中的数据库。②分布式的、可伸缩的、列式存储的内存数据库。③HBase中的表可以达到数十亿行,数百万列。(戏称为:高表)④HBase基于内存来进行CRUD操作的,速度块、效率高。⑤HBase内存中的数据最终是落地在HDFS之上的。⑥HBase表中的列没有类型的,都是字节数组。(没有RDBMS中的:varchar, int,date…)…...
2019-05-08 21:20:44 210
原创 实战开发:hbase行键设计及降低region热点的出现
在聊这个问题前,搞明白为什么要设计rowkey?(精心整理的说辞)Hbase 分布式 列式 内存数据库。有着很高的读写性能。在olap即时分析越来越发挥重要的作用,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。先谈几个原则:1.(为什么)Rowkey的长度原则Rowkey长度设计原则:Rowkey是一个二进制,Row...
2019-08-15 22:51:09 602
原创 集群规模、mysql与hbase区别
1. hbase与mysql的区别①定义:a)MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(此处以Innodb为例,不涉及别的存储引擎)。b)HBase:基于HDFS,支持海量数据读写(尤其是写),支持上亿行、上百万列的,面向列的分布式NoSql数据库。天然分布式,主从架构,不支持事务,不支持二级索引,不支...
2019-07-25 11:40:26 611
原创 sqoop导数据遇到的部分问题
在导入hive的时候,如果数据库中有blob或者text字段,会报错,解决方案:clob:在将数据由Oracle数据库导入到Hive时,发现带有clob字段的表的数据会错乱,出现一些字段全为NULL的空行。由于在项目中CLOB字段没有实际的分析用途,因此考虑将CLOB字段去掉。同时,为了防止CLOB字段产生一些问题,因此将HIVE中CLOB字段禁用,禁用的方式如下:[Hadoop@mast...
2019-07-25 11:37:18 2900
转载 Hadoop工程师面试题:使用linux命令完成文本处理
某个目录下有两个文件a.txt和b.txt,文件格式为(ip,username),列如:a.txt127.0.0.1 zhangsan127.0.0.1 wangxiaoer127.0.0.2 lisi127.0.0.3 wangwub.txt127.0.0.4 lixiaolu127.0.0.1 lisi每个文件至少100万行,请使用Linux命令完成如下工作:1)每个文件...
2019-07-25 11:09:44 390
原创 Hive grouping sets grouping_id cube rollup
CREATE EXTERNAL TABLE test_data (month STRING,day STRING,cookieid STRING) ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘,’stored as textfile location ‘/user/jc_rc_ftp/test_data’;select * from test_...
2019-06-19 19:43:38 127
原创 hive json字符串处理问题 (转载)
我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple。用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下:hive (def...
2019-06-19 10:45:59 2130
原创 javaAPI 操作Hbase基础篇
实体类 (使用了lombok框架)lombok框架(插件)该框架会根据注解,生成对应的getter/setter访问器,以及构造方法注解名 作用------------------------------------------------------------@Data ...
2019-05-08 21:00:16 354
原创 HDFS面试篇2
hdfs读写过程(一)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问namenode块的存储位置4)...
2019-04-26 09:49:36 475
原创 Hdfs面试篇01
体系结构(★★)hdfs的优点与缺点HDFS 具有以下优点:(1) 高容错性数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。(2) 适合批处理它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。(3) 适合大数据处理数据规模:能够处理数据规模达到 GB、TB、甚至PB级别...
2019-04-26 09:36:56 233
原创 Hadoop中job.setNumReduceTasks(0)方法
job.setNumReduceTasks(0)唯一影响的是map结果的输出方式 当job.setNumReduceTasks(0)时,即没有reduce阶段,此时唯一影响的就是map结果的输出方式如果有reduce阶段,map的结果被flush到硬盘,作为reduce的输入;reduce的结果将被OutputFormat的RecordWriter写到指定的地方(setOutputPath...
2019-04-24 14:16:21 1297
转载 java常用
一、Java 常用包java.lang–语言包:Java语言的基础类,包括Object类、Thread类、String、Math、System、Runtime、Class、Exception、Process等,是Java的核心类库java.util–实用工具包:Scanner、Date、Calendar、LinkedList、Hashtable、Stack、TreeSet等;java....
2018-09-12 08:22:09 88
转载 可视化日历
1;为了回顾熟悉一下关于Date类的为核心的一下关于时间日期的类,打一个小型的项目练练手, 这个基本上没有用到面向对象设计的思想,基本上还是用面向过程设计的思维方式,只需一个类,所有任务都是在main方法中完成的,单纯的就是练练手;熟悉一下过程;2;要达到怎样的效果;如图 这里写图片描述3;分析; 3.1;要从键盘输入,则需要接受;//先要获取键盘输入流; Scanner...
2018-09-07 08:36:05 228
转载 Map集合中value()方法与keySet()、entrySet()区别
在Map集合中values():方法是获取集合中的所有的值—-没有键,没有对应关系,KeySet(): 将Map中所有的键存入到set集合中。因为set具备迭代器。所有可以迭代方式取出所有的键,再根据get方法。获取每一个键对应的值。 keySet():迭代后只能通过get()取key entrySet():Set...
2018-09-07 07:58:56 170
转载 时间类
概述Date类是表示特定时间点的对象,精确到毫秒。 As of JDK 1.1, the Calendar class should be used to convert between dates and time fields and the DateFormat class should be used to format and parse date strings. The c...
2018-09-07 07:57:09 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人