自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

原创 由LEFT SEMI JOIN所联想到的

一、LEFT SEMI JOIN 与 INNER JOIN的区别 1. LEFT SEMI JOIN LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用LEFT SEMI JOIN 重写子查询语句。...

2020-06-16 20:41:22 54 0

原创 值得借鉴和思考的若干数仓相关架构图

1、知乎实时数据分层架构 2、较不常见的一种离线架构 3、其他(待整理)

2020-06-11 10:56:25 62 0

原创 数据仓库、数据湖、数据中台基础概念与对比

现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台; 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,...

2020-06-09 19:36:03 228 0

原创 中台的分类及实时数据中台构建

中台的种类 1.技术中台(基础服务中台) 技术中台指的是将大家都通用的技术能力聚合到一起,由同一个团队负责,防止重复造轮子,是最容易实现的中台化。核心价值是降成本。 各公司的基础服务,以账号体系为代表,都已经是中台化的了。淘宝、天猫、飞猪等业务之间,快车、专车、顺风车等业务之间,美团外卖、酒旅...

2020-06-06 10:41:14 121 0

原创 数据中台研发实践

转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监 1、数据处理架构 下面是一个简单的数据处理架构演进过程: 最早数据仓库的计算只支持批处理,通常...

2020-06-05 18:23:07 122 0

原创 数据中台架构与技术选型

转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监 1、数据中台架构核心组成 我认为的数据中台核心架构包括四大组成部分,具体是:底座是数据基础平台,包括...

2020-06-05 17:20:33 142 0

原创 大数据演进:从数据仓库到数据中台

转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监 第一阶段 21世纪的第一个10年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、O...

2020-06-05 16:41:15 182 0

原创 HQL代码格式化

Hive SQL代码的格式化,之前一直靠规范、自律和手工调整。每个人的书写习惯都不相同,要达到完全统一并非易事。 现在,通过HUE里面的代码格式化快捷键操作,提高代码格式化效率和美化标准,方便好用。 主要快捷键: Command + i (代码美化、格式化) Tab (Indent) sh...

2020-06-02 10:41:21 144 0

原创 标签库建设

一、标签库定位 标签库以标签形式统一客户群数据的封装规范和操作风格,从而实现客户洞察知识的沉淀及共享,并通过产品化的形式实现目标客户群的快速生成和发布,提升营销渠道的客户群投放效率,标签库建设的目的就是为了营销,而不是为了分析。 企业的标签库跟广告产业的DMP是类似的,企业内部对自己的用户进行精...

2020-05-27 10:49:19 338 0

原创 互联网数仓之:Lambda架构 vs Kappa架构

一、Lambda 架构 Lambda 架构由Storm的作者Nathan Marz提出,其设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错、低延迟、可扩展等。其整合离线计算与实时计算,融合不可变性、读写分离和复杂性隔离等原则,可集成Hadoop, Kafka, Spark,St...

2020-05-26 20:19:53 164 0

原创 数据湖浅析

一、什么是数据湖? ODS(operational data store, staging area)存储来自各业务系统(生产系统)的原始数据,即为数据湖。 CDM(common dimension model)为经过整合、清洗的数据。其中的DWS汇总层,为面向主题的数据仓库(狭义),用于BI报...

2020-05-26 16:56:55 148 0

原创 阿里云高级技术专家李金波:优秀数仓的要素及如何从传统数仓转型做互联网数仓?

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 优秀数仓的三要素:清晰、保障和扩展性好 介然认为,优秀的数据仓库应该包含以下要素: 1.结构、分层清晰 ...

2020-05-25 09:56:11 70 0

原创 520活动参与做的实时报表部分全景记录

本也没有什么特殊的,记录一下做的过程,备查。 环境: impala、kudu、dataX 1、程序文件路径 [root@ai-etl-c2-13 activity]# pwd /data/activity [root@ai-etl-c2-13 activity]# tree . |-- ...

2020-05-20 19:39:12 155 0

原创 标签体系实施架构

节自:https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 标签体系架构可以分为三个部分:数据加工层,数据服务层,数据应用层。每个层面面向用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务...

2020-05-20 14:16:16 175 0

原创 标签体系构建原则

节自:https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 原则一、放弃⼤而全的框架,以业务场景倒推标签需求 每个公司的产品、运营、商务对标签的诉求有较大的差异,同时不同的运营团队的诉求也存在很大差异,⼤而全的标签框...

2020-05-20 13:56:08 311 0

原创 大数据查询分析引擎比较

1、常见方案比较 首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。 其次,ES (Elasticsearch+Logstash+Kibana)是一个功能很强大的系统,在中等数据规模场景下能较...

2020-05-19 11:49:26 344 0

原创 Hadoop大数据生态圈中的组件角色与关系

各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等。 一、Hadoop核心组件 首先要介绍一下Hadoop,现在Hadoop分为3部分,分别是HDFS,Yarn和Mrv2 Hadoop...

2020-05-15 16:26:39 159 0

原创 常见的几种消息中间件

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发RocketMQ等。 1、消息中间...

2020-05-15 14:41:20 92 0

原创 初识kudu

kudu是一个与hbase类似的列式存储分布式数据库。 官方给kudu的定位是:在更新更及时的基础上实现更快的数据分析。 hdfs与hbase数据存储的缺点: 目前数据存储有了HDFS与hbase,为什么还要额外的弄一个kudu呢?HDFS:使用列式存储格式Apache Parquet,Apa...

2020-05-13 13:49:30 105 0

原创 Linux中su、sudo等用户切换操作

sudo :暂时切换到超级用户模式以执行超级用户权限,提示输入密码时该密码为当前用户的密码,而不是超级账户的密码。缺点是每次执行超级用户权限都要在命令前加上 sudo ,优点是在当前终端再使用 sudo 不要再重复输入密码(只对于当前终端有效)。不过有时间限制,Ubuntu默认为一次时长15分钟。...

2020-05-11 13:31:36 72 0

原创 Impala-Shell常用操作命令

一、外部Shell 选项 描述-h, --help 显示帮助信息 -v or --version 显示版本信息 -i hostname, --impalad=hostname 指定连接运行 impalad 守护进程的主机。默认端口是 21000。 -q query, --query=query ...

2020-05-09 09:13:34 183 0

原创 Mac版sourcetree由于git密码重置而造成更新不了的解决方法

第一次使用sourceTree时输入了一次密码,然后自动记住了密码。后来手动修改了一次密码,由于sourceTree记住的还是老密码,所以pull代码的时候提示没有权限,但是又不弹出对话框让输入密码。而且在console下使用git命令拉取代码同样提示失败,且不让输入密码。 mac下需要删除钥匙串...

2020-04-28 13:32:29 157 0

原创 mysql一次性修改多个列

1、本来语句 ALTER TABLE api.api_ad_flow_classification_user_full_1d MODIFY COLUMN user_voilate_rate decimal(10,4) NOT NULL DEFAULT '0' COMMENT...

2020-04-23 14:09:07 416 0

原创 需用历史全量数据计算的替代方案

比如,计算第一次、总量等,正常情况下需要用到所有历史数据进行计算。但有些表数据特别大,用全景历史数据计算比较费力,可能就算不出来。 这时,可以考虑用这种方式。其优点是,数据涉及到的数据量偏小;其缺点也很明显,需要从历史数据起始之日,一天天刷到当前,中间少一天不可。如果中间有一天出现问题,则后面的数...

2020-04-16 19:50:02 87 0

原创 业务拉链表的展开场景及方案

比如,广告投放计划表,原主题表及业务表都是某个用户投放某个广告从哪一天开始到哪一天结束。 现在需求是,统计近一个月的广告投放预算。这就需要先把拉链给展开,然后进行汇总统计。 当然,也可以根据一个月内每一个用户的实际投放天数乘以它的每日投放预算得出,但这样就有一些复杂逻辑判断,比较麻烦,也不是不行。...

2020-04-10 11:28:57 109 0

原创 胡言乱语之我们生活的虚拟世界

房子是用来住的?车子是用来开的? 是,也不是。 胡雪岩故居,位于杭州市河坊街、大井巷历史文化保护区东部的元宝街,建于清同治十一年(1872年),正值胡雪岩事业的颠峰时期。当时豪宅工程历时3年,于1875年竣工。落成的故居是一座富有中国传统建筑特色又颇具西方建筑风格的美轮美奂的宅第,整个建筑南北长...

2020-04-09 19:09:05 34 0

原创 Hive添加自增列简明方法

1、自增列的生成 over()里不带排序或order by 1是一样的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.ods_wpt_management_search_relat...

2020-04-08 14:53:19 74 0

原创 我上了985,211,才发现自己一无所有 | 或者,也不能这么说【转载】

复旦大学女生樊悦书-->2016年10月27日,在公众号“旦事记”里发表的文章! 我是在很久以后才意识到原来那些看起来光鲜亮丽的人心里也是在自卑的。 ------------------------------------------------------------- 这个发现很偶然,...

2020-03-31 15:50:33 202 0

原创 日常有用:hive数据导入到mysql小记

1、hive数据导入成竖线分隔符格式数据 hive -e "select concat(ip,'|', location,'|', is_kuandai,'|', ban_status,'|', is_b...

2020-03-09 17:46:17 67 0

原创 hive根据日期获取星期几的方法

hive原生未提供获取一个日期是星期几的方法,所以我们只有自己编写udf函数提供;除UDF之外,也可以使用hive原生函数经组合获取星期几。 1、格式 pmod(datediff(#date#, '1920-01-01') - 3, 7) #date#表示给的日期。 s...

2020-03-03 14:41:03 315 0

原创 在hive中将UTC转为正常时间的方法

时间相关含义: 1. 时间戳(unix timestamp) 表示以(1970-01-01 00:00:00)为起点,到现在的秒数。 2. GMT和UTC 先说结论,UTC与GMT基本上等同,误差不超过0.9秒。 GMT,即格林尼治标准时间,也就是世界时。 UTC,即协调世界时。UTC...

2020-02-11 15:25:40 432 0

原创 mysql中实现取分组排序第一个或最后一个的方法

在hive或oracle中有row_number()over()函数,mysql中不支持。想了好久,网上搜了好久,发现原先刚毕业不了解分析函数的时候,就通先分组取其最大最小值再查询出其记录的方法做出过。这些年分析函数用惯了,原始的方法就想不起来了。 这种方法在查询效率上,数据量大的时候可能会比较低...

2020-02-09 11:41:53 294 0

原创 电商用户标签体系建设基础步骤

构建用户标签体系主要根据用户在历史时间内的网购行为记录,从网购时间点、内容深度剖析,针对用户的基础属性、社交行为、互动行为、消费行为、偏好习惯、财富属性、信用属性和地理属性等八大维度构建用户标签体系,以期综合描绘平台消费者的行为特征。建设的过程分为六个基本步骤:1、首先以业务视角梳理规划整个标签体...

2020-01-09 14:28:40 851 0

原创 hive select查询中去除部分列

这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。 1、查询表的表结构 hive> desc tmp.xx_toutiao_userinfo; OK id stri...

2020-01-07 15:33:45 509 0

原创 hive快速建表的两种方式

1、create table as 建表语句示例: drop table if exists xx_toutiao_userinfo_asjson; create table xx_toutiao_userinfo_asjson ROW FORMAT SERDE 'org.apac...

2020-01-03 14:39:55 202 0

原创 hive中hive-json格式的表使用

1、create table as 方式生成json表及数据 sql脚本: drop table if exists tmp.xx_toutiao_userinfo; create table tmp.xx_toutiao_userinfo as with tab_user_basic as...

2020-01-02 19:41:05 178 0

原创 配合任务迁移数仓ETL脚本按需替换方案2

参考:https://blog.csdn.net/BabyFish13/article/details/103516408 1、固定库名替换成参数脚本 /Users/nisj/Documents/wptDataGit-nisj/wptData/pyScript/pyWpt/sqlfile_re...

2019-12-26 16:26:25 151 2

原创 金融行业用户画像六大维度

随着移动互联网时代的到来,金融服务从以产品为中心逐渐转向以消费者为中心。而金融消费主力人群也趋于年轻化,金融行业无法像过去一样从对话就能了解年轻人的想法,而对于年轻人金融产品的需求出现多元化,更需要我们细分客户并为其开发设计产品。为此,金融企业需要借助用户画像,来完成了解客户、找到目标客户、触达客...

2019-12-19 16:19:52 765 0

原创 Hive 内外表转换、表结构复制、动态分区等实操

内部表和外部表的转换 alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表 alter table tablePartition set TBLPROPER...

2019-12-16 19:43:44 64 0

原创 Hive小文件合并

会话级Session配置 文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true; ##在 map only 的任务结束时合并小文件 set hive.merge.ma...

2019-12-16 10:28:16 88 0

提示
确定要删除当前文章?
取消 删除