大数据仓库
mulangren1988
开朗乐观,积极上进
展开
-
大数据仓库分层
数据仓库分层ODS 与 DW我们的分层ODS 与 DW对于ODS层,一般大家都能够认同它是一种操作型比较强的、未保留历史或者保留近期历史的数据。所谓操作型,是相对分析型而言的。后者多是汇总的、便于分析统计的结构。操作型的另一个特点就是经常会被更新,而分析型数据很少如此。。我们的分层由于2B业务的原因,一个企业一个库,一个订单一张表,因此整体上数据存储比较杂乱。在同步时,我们另外加了一个 B...原创 2018-09-20 09:45:12 · 971 阅读 · 0 评论 -
2018-09-27#hive 表写入数据的方式
hive 表写入数据的方式少量数据 insert intocreate table dw.dim_area_code (country_name string comment "国家名称",country_code string comment "国家代码",province_name string comment "省份名称",city_name string comment "地级...原创 2018-09-27 18:12:17 · 2550 阅读 · 0 评论 -
2018-09-27#hive数据检查的常见方式
hive数据检查的常见方式主键上的数据是否用重复select phone_segment,count(1) as cntfrom dw.dim_phone_segment_info agroup by phone_segmenthaving cnt > 1;对比去重前后的数据量select count(1), count(distinct phone_num) from dw...原创 2018-09-27 20:44:06 · 725 阅读 · 0 评论 -
2018-10#技术团队高效开发工具
技术团队高效开发工具团队中,开发工具不统一,遇到问题没有现成解决方案,需要花费额外的时间去处理。因此,有必要在组件团队的一开始,就统一开发工具。以下是很多国内乃至国外开发人员推荐比较多的工具,作为团队中核心基础。文章目录技术团队高效开发工具云笔记代码编辑器文本编辑器版本管理工具浏览器文件实时同步本地文件管理格式化JSON 格式化云笔记有道笔记官网印象笔记官网代码编辑器IDEA ...原创 2018-10-16 17:28:23 · 457 阅读 · 0 评论 -
我国大陆地区的手机号正则匹配
我国大陆地区的手机号正则匹配-- hive sql 测试通过select phone_num RLIKE "^(\\+?86)?((13[0-9])|(14[5,7])|(15[0-3,5-9])|(17[0,3,5-8])|(18[0-9])|161|166|198|199|(147))\\d{8}$"在线正则测试http://tool.oschina.net/regex#测试的时...原创 2019-02-22 10:28:45 · 855 阅读 · 0 评论 -
2017-07-20#Hive Analytics Functions : row_number rank over
2017-07-20#Hive Analytics Functions : row_number rank over在做数据分析是,会统计用户访问app不同页面的开始时间,理论上同一个用户访问不同页面的开始时间应该不同。为了排查app端是否存在bug,用到row_number() over () 窗口函数。row_number oversql如下selecta.gu_id,startti...原创 2019-02-22 11:25:15 · 326 阅读 · 0 评论 -
hive多分区写入
hive多分区写入-- 多分区写入set mapred.max.split.size=256000000;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=800;set hive.exec.max.dynamic.partitions.pernode=800;INS...原创 2019-02-22 14:54:14 · 3691 阅读 · 0 评论 -
Azkaban与阿里云EMR-数据开发对比结果
背景目前我司大数据部门使用的 ETL 调度工具是 Apache Azkaban,因为该服务会占用独立的机器,因此考虑迁移到阿里云的 EMR 上,因此在整体迁移之前,我们先做了一下作业配置和工作流调度方面的测试,看看目前 EMR 上的功能能否满足现有的ETL 调度需求。经过几天的文件迁移和工作流调度测试,对两个工具的对比情况进行了整理。Azkaban与阿里云EMR-数据开发对比结果Az...原创 2019-05-21 17:07:30 · 1586 阅读 · 0 评论