![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
圣☞摧枯拉朽
大数据
展开
-
hive 处理group by字段中没有,但select中要有的字段
collect_set(字段名)[0]原创 2020-12-18 21:54:48 · 1316 阅读 · 2 评论 -
什么是数据仓库总线架构
一、总线架构维度建模的数据仓库中,有一个概念叫Bus Architecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。在多维体系结构(MD) 的数据仓库架构中,主导思想是分步建立数据仓库,由数据集市组合成企业的数据仓库。但是,在建立第一个数据集市前,架构师首先要做的就是设计出在整个企业内具有统一解释的标准化的维度和事实,即一致性维度和一原创 2020-12-03 21:20:04 · 547 阅读 · 0 评论 -
ETL
什么是逻辑数据映射?它对ETL项目组的作用是什么?答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。 源数据库名:源数据库的实例名,或者连接字符串。 源表名: 源列名: 转换方法:需要对源数据做的操作,如Sum(amount)等。逻原创 2020-12-02 21:44:38 · 354 阅读 · 1 评论 -
spark 出现的问题
http://www.yidooo.net/2019/04/21/spark-troubleshooting-guide.html原创 2020-11-01 19:09:33 · 95 阅读 · 0 评论 -
hive 数据类型注意事项
1 , float double decimal 类型统一用decimal 并且 给decimal类型设计一个很大的范围(比如decimal(20,8))2,所有类型都用string。这种比较粗糙。3, 所有int类型都用 bigint类型。原创 2020-11-01 16:04:28 · 203 阅读 · 0 评论 -
事务的四个特性
事务是指对系统进行的一组操作,为了保证系统的完整性,事务需要具有ACID特性,具体如下:1. 原子性(Atomicity) 一个事务包含多个操作,这些操作要么全部执行,要么全都不执行。实现事务的原子性,要支持回滚操作,在某个操作失败后,回滚到事务执行之前的状态。 回滚实际上是一个比较高层抽象的概念,大多数DB在实现事务时,是在事务操作的数据快照上进行的(比如,MVCC),并不修改实际的数据,如果有错并不会提交,所以很自然的支持回滚。 而在其他支持简单事务的系统中,不会在快照上...原创 2020-10-22 12:41:18 · 988 阅读 · 0 评论 -
master 集群模式
master 可以在代码内部设置也可以。val sparkConf = new SparkConf().setMaster("yarn-cluster")也可以在命令行上面设置。spark-submit --master yarn-cluster原创 2020-09-29 15:34:11 · 356 阅读 · 0 评论 -
hive 函数用法
数据准备数据集 1user1,https://blog.csdn.net/qq_28680977/article/details/108161655?k1=v1&k2=v2#Ref1,10,2020-09-1202:20:02,2020-09-12 2user1,https://blog.csdn.net/qq_28680977/article/details/108298276?k1=v1&k2=v2#Ref1,2,2020-09-1111:20:12,2020-09-11..转载 2020-09-27 20:02:59 · 186 阅读 · 0 评论 -
Hive映射HBase
create external table if not exists wedw_ods.log_status_from_hbase(m_id string ,order_info_id string ,before_status int ,after_status int ,status_type int ,description string ,gmt_created string,gmt_modified string)stored by 'org.apache.h.原创 2020-09-27 19:55:36 · 210 阅读 · 0 评论 -
hive LATERAL VIEW explode和get_json_object
文件m:a:shandong,b:beijing,c:hebei|1,2,3,4,5,6,7,8,9|[{"source":"7fresh","monthSales":4900,"userCount":1900,"score":"9.9"},{"source":"jd","monthSales":2090,"userCount":78981,"score":"9.8"},{"source":"jdmart","monthSales":6987,"userCount":1600,"score":"..原创 2020-09-26 21:16:00 · 441 阅读 · 0 评论 -
Linux Shell中使用awk完成两个文件的关联Join
Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取。NR指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。FNR只的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意原创 2020-09-21 23:11:27 · 2327 阅读 · 0 评论 -
hql 和 spark sql的区别
一、什么是Spark SQL? (官方定义)Spark SQL* A Spark module for structured data processing(known set of fields for each record - schema) ;1. Spark SQL是Spark中专门用来处理结构化数据(每一行数据都遵循Schema信息 —— 建表时表的字段及其类型)的一个模块;* Provides DataFra...转载 2020-06-23 22:21:11 · 1376 阅读 · 0 评论 -
设置mysql 为hive元数据存储数据库
apache-hive-1.2.1-bin/conf<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>javax.jdo.op...原创 2020-04-09 16:16:31 · 166 阅读 · 0 评论 -
日志数据产生 ——flume采集数据——kafka存储数据——flume消费kafka数据——hdfs
一、说明:1. 搭建flume 用来监控日志生成目录,将日志数据sink到kafka2. kafka 存储数据,方便后续flume消费。另外也可以供spark streaming 消费。3. 消费flume,消费kafka的数据,然后sink到hdfs二、步骤1.启动集群2.清理log数据,即lg.sh 产生的数据psall.sh rm -rf /tmp/logs...原创 2020-01-11 15:35:02 · 742 阅读 · 0 评论