shangzhi_quan
码龄8年
关注
提问 私信
  • 博客:51,303
    51,303
    总访问量
  • 2
    原创
  • 342,703
    排名
  • 8
    粉丝
  • 0
    铁粉

个人简介:有趣的灵魂万里无一,开启逗比的程序员,用文字记录工作中的问题和点滴,希望自己可以不回头的一直走下去!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-09-03
博客简介:

qq_36041534的博客

查看详细资料
个人成就
  • 获得17次点赞
  • 内容获得1次评论
  • 获得42次收藏
创作历程
  • 21篇
    2018年
TA的专栏
  • hive
    12篇
  • shell
  • sql
    2篇
  • kudu
    2篇
  • cdh
    1篇
  • 大数据
    3篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大数据:Hive - ORC 文件存储格式

一、ORC File文件结构  ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的...
转载
发布博客 2018.06.04 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

转载0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景...
转载
发布博客 2018.06.04 ·
967 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

拉链表

在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,   比如,查看某一个用户在过去某一段时间内,更新过几次等等;4. 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的...
转载
发布博客 2018.06.04 ·
285 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ETL DataStage实现

转载第1章  前言自开始知道数据库,就知道有数据仓库这个东西,数据仓库中一关键环节就是ETL。可是三四年过去了,由于没有接触数据仓库这个东西,对ETL自然是一知半解,更别提实现了。从2007年9月份开始,要做数据仓库项目了,接触了ETL。ETL中要用DS实现,项目中没有人会,组长要我一个月内,边工作边自学DS,然后给大家讲怎么用DS实现ETL。想起初学时的困难和迷惑,和现在一些同学的疑问,本人从开...
转载
发布博客 2018.05.31 ·
2084 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

DataStage(ETL)技术总结 -- 介绍篇

转载 数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,  Load)。    IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动...
转载
发布博客 2018.05.31 ·
1393 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

impala-kudu相关问题经验总结

今天在hue上执行数据的重新导入:1、删除原先的kudu表:drop table  events_tab_2;2、需要在impala里创建kudu新表:CREATE TABLE  events_tab_2(   user_id STRING ,   item_id STRING ,   create_time BIGINT ,   col_1 STRING ,   col_12 STRING , ...
转载
发布博客 2018.05.16 ·
411 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive 插入列的问题

hive 添加列a,访问历史数据a全为null,遇到一个奇怪的问题:分区daytime=2013-12-16已经存在,用load data将数据加载进分区daytime=2013-12-16,select * from tb where daytime='2013-12-16' and a is not null limit 10; 结果为空;查hdfs发现daytime='2013-12-16'...
转载
发布博客 2018.05.16 ·
1959 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive通过查询语句向表中插入数据注意事项

转载
转载
发布博客 2018.05.16 ·
1133 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive增加Update、Delete支持

转载一、配置hive-site.xml二、建表三、操作四、总结一、配置hive-site.xmlCDH版本先进入Hive配置页  选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项  点击+号,增加如下配置项hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynami...
转载
发布博客 2018.05.15 ·
1746 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive中的桶表入门(适用于抽样查询)

1、基本概念  (1)桶表是对某一列数据进行哈希取值以将数据打散,然后放到不同文件中存储。  (2)在hive分区表中,分区中的数据量过于庞大时,建议使用桶。  (3)在分桶时,对指定字段的值进行hash运算得到hash值,并使用hash值除以桶的个数做取余运算得到的值进行分桶,保证每个桶中有数据但每个桶中的数据不一定相等。           做hash运算时,hash函数的选择取决于分桶字段的...
转载
发布博客 2018.05.15 ·
1002 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

CDH5离线集群搭建--绿色简单

转离线安装CM5和CDH5.13完全教程2017年11月15日 14:43:36阅读数:3719安装过程较为详细,需要安装的同学可以好好查看 —关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,...
转载
发布博客 2018.05.15 ·
303 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive三种建表语句详解

转载注:hive其他语法在hive官网有说明,建议初学者,去官网学习一手的资料, 官网:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationCreate Table官网说明Hive建表方式共有三种:直接建表法查询建表法like建表法首先看官网介绍 ‘[]’ 表示可选,’|’ 表示二选一CREATE ...
转载
发布博客 2018.05.15 ·
8482 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

在Hive中实现存储过程–HQL/SQL

Hive存储过程系列文章
转载
发布博客 2018.05.14 ·
2197 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL

链接1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作SELECT [ALL | DISTINC...
转载
发布博客 2018.05.14 ·
420 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive--HiveQL与SQL区别

转载链接1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select ...
转载
发布博客 2018.05.14 ·
343 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kudu1.5.0新特性

New features1、tablet servers现在在启动的时候可以容忍磁盘故障,这个功能是实验性,默认情况下,如果遇到磁盘故障,Kudu将崩溃。如果启用,在磁盘上有任何数据的tablet都不会打开和在需要的时候会进行副本的复制,启动此功能, 设置 –suicide_on_eio flag to false,另外,可配置的权衡,在新添加的tablet对磁盘故障的容忍,它的并行化IO通过 –...
转载
发布博客 2018.05.10 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

内连接和等值连接的区别

内连接就是满足连接条件的结果集,这是相对于外连接而言。 外连接即使找不到满足条件的记录,另一方的记录还是要输出INNER JOIN可以不等:select * from t1 inner join t2 on t1.id<>t2.id; 从集合论角度看:等值连接是内连接的子集.转载 ...
转载
发布博客 2018.05.10 ·
5124 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

sql内连接中,等值连接与自然连接的区别

1. 等值连接中不要求相等属性值的属性名相同,而自然连接要求相等属性值的属性名必须相同,即两关系只有在同名属性才能进行自然连接。如上例R中的C列和S中的D列可进行等值连接,但因为属性名不同,不能进行自然连接。    2. 等值连接不将重复属性去掉,而自然连接去掉重复属性,也可以说,自然连接是去掉重复列的等值连接。如上例R中的B列和S中的B列进行等值连接时,结果有两个重复的属性列B,而进行自然连接时...
转载
发布博客 2018.05.10 ·
4478 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Hive开发要知道数据仓库的四个层次设计

  数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。       ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,...
转载
发布博客 2018.05.08 ·
573 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

bash中` ` |' '| " "的区别

在bash里,‘’“”都可以用来表示字符串,区别是双引号中变量被赋值了,而单引号是字符串本身,·` `反引号,内一般放的是bash的命令,将命令的结果赋值给一个变量。如下:a="abc"b=`pwd`echo "string=$a" # 结果显示 string=abcecho 'string=$a' # 结果显示string=$aecho 'string=$b' # 结果显示 strin...
原创
发布博客 2018.05.07 ·
15197 阅读 ·
6 点赞 ·
1 评论 ·
6 收藏
加载更多