数据仓库
文章平均质量分 88
guicaizhou
这个作者很懒,什么都没留下…
展开
-
sqoop同步操作实例
1、自由模式查询同步数据 (如下)bin/sqoop import \--connect jdbc:mysql://xxxxxurl、端口、库名xxxxxx?tinyInt1isBit=false \--username 用户名 \--password 密码 \--null-string '\\N' \--null-non-string '\\N' \--query "sel...原创 2018-08-24 10:28:57 · 1468 阅读 · 0 评论 -
大数据:Hive - ORC 文件存储格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描...转载 2018-12-06 11:54:15 · 454 阅读 · 0 评论 -
csv、parquet、orc读写性能和方式
背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率更高的文件格式作为替代品。 存储方式 csv...转载 2018-12-05 17:41:03 · 3757 阅读 · 2 评论 -
Hive分区表新增字段+重刷历史方法(避免旧分区新增字段为NULL)
1-1.建立测试表hive> CREATE EXTERNAL TABLE table_for_test_add_column( > original_column string COMMENT '原始数据' > ) > COMMENT 'add_column的测试表' > PARTITIONED BY ( &...转载 2018-12-05 10:15:08 · 2439 阅读 · 1 评论 -
Hive修改表
Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_name...转载 2018-11-21 16:10:43 · 293 阅读 · 0 评论 -
Mongodb数据同步到Hive
思路:利用Mongodb的export工具导出数据成json格式; load该json数据到临时hive表的一个字段; 从该临时hive表解析json落地成最终的表;代码:1. 利用Mongodb的export工具导出数据成json格式$mongo_path/bin/mongoexport -h $host:27017 -u $u...原创 2018-11-08 15:15:26 · 2699 阅读 · 1 评论 -
使用Sqoop job工具同步数据
我们使用的是Sqoop-1.4.4,在进行关系型数据库与Hadoop/Hive数据同步的时候,如果使用--incremental选项,如使用append模式,我们需要记录一个--last-value的值,如果每次执行同步脚本的时候,都需要从日志中解析出来这个--last-value的值,然后重新设置脚本参数,才能正确同步,保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而且...转载 2018-11-08 13:47:14 · 948 阅读 · 0 评论 -
sqoop 特殊字符导入问题
Sqoop从MySQL导入数据到hive,示例:sqoop import –connect jdbc:mysql://10.255.2.89:3306/test?charset=utf-8 – username selectuser –password select##select## –table test_sqoop_import \–columns ‘id,content,updateT...转载 2018-09-30 15:14:28 · 4659 阅读 · 0 评论 -
HDFS——如何将文件从HDFS复制到本地
下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法:Hadoop fs -get [-ignorecrc] [-crc]复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -get hd...转载 2018-09-28 08:42:18 · 23286 阅读 · 0 评论 -
拉链表--实现、更新及回滚的具体实现
1 背景 本文前面的内容时参考了'lxw的大数据田地',具体可查看最后的'参考文章',个人加入了'拉链表的回滚'部分的内容sql,如果有实践的,可以互相交流学习,谢谢 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1.1 数据量比较大; 1.2 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 1.3 需要查看某一个...转载 2018-08-24 17:00:56 · 2719 阅读 · 0 评论 -
hive的用户和用户权限
HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制体系与Linux及Hadoop的用户是否存在联系。1)remote方式部署HiveHive中m...转载 2018-08-24 10:36:31 · 15900 阅读 · 1 评论 -
hive实现 数据仓库中的拉链表
前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive...转载 2019-04-30 14:31:30 · 424 阅读 · 0 评论