自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

  • 博客(15)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python进行主播收入统计的脚本

关注点:1、指定日期上一月份的获取2、取两月份间的所有月份清单3、mysql小表数据在hive上的插入装载4、Hive汇总数据向mysql插入1、Hive临时表及mysql目标表的准备Hive临时表:drop table if exists xxx_anchor_bringnew_detail_min;CREATE TABLE xxx_anchor_bringne

2017-11-30 11:26:20 640

原创 有关case when的两个sql案例

1、深层嵌套测试环境:Mysqlselect a1.`datetime`,a1.uid,a1.mic_game_id,a2.`name` gamename,case when a2.`name` in("创造与魔法","创造与魔法") then(case when a1.rank=1 then 100 when a1.rank between 2 and 3 then 60

2017-11-29 16:27:35 843

原创 Hive日期时间函数学习

1、日期字符串与unixtime互转日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式示例:select from_unixt

2017-11-21 17:26:28 1686

原创 初识Impala及与Hive对比

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计

2017-11-17 14:34:50 708

原创 对Hadoop生态圈的一个理解

来源:知乎作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者

2017-11-17 11:04:59 644

原创 Hive分析函数之CUME_DIST、PERCENT_RANK学习

这两个分析函数比较不常用,或许用在一些特别要求的场合。CUME_DIST 小于等于当前值的行数/分组内总行数。比如,统计小于等于当前薪水的人数,所占总人数的比例。PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1。1、CUME_DIST使用示例select pt_day,appkey,count(identifier),cume_dist()over(

2017-11-16 16:23:37 1743

原创 Hive中count统计数量的多种使用方式

其他环境没有试,Hive上肯定是可以的。可以在count里使用case when、distinct等处理,满足日常数据统计需求。select pt_day, count(*), count(uid),count(identifier), count(distinct uid),count(distinct identifier),

2017-11-16 15:06:46 37924

原创 Hive分析函数之ntile、排名函数学习

1、Ntile使用可以看成是:它把有序的数据集合平均分配到指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。语法是:ntile (num)  over ([partition_clause]  order_by_clause)  as your_bucket_num然后可以根据桶号,选取前或后 n分之几的数据。

2017-11-16 14:17:04 5759

原创 Hive窗口函数之累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM() 、AVG()等使用;可以结合FIRST_VALUE() 和LAST_VALUE(),返回窗口的第一个和最后一个值。- 如果只使用partition by子句,未指定order by的话,我们的聚合是分组内的聚合. - 使用了order by子句,未使用window子句的情况下

2017-11-16 10:33:32 29189 1

原创 Hive分析函数之grouping sets、cube、rollup学习

源数据建表语句:hive> show create table bi_all_access_log;OKCREATE TABLE `bi_all_access_log`( `appsource` string, `appkey` string, `identifier` string, `uid` string)PARTITIONED BY ( `pt_mon

2017-11-15 19:31:03 2050

原创 用Hive分析函数lead计算用户页面的停留时长

Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。场景描述:用户Peter在浏览

2017-11-13 17:36:40 3789 1

原创 Hive分析函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE学习

数据准备:创建表:drop table if exists xxx_src_table;create table xxx_src_table(polno string,eff_date string,userno string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','stored as textfile;数据准备:[had

2017-11-13 11:10:25 1983

原创 Hive数据类型之Structs、Array、Map的使用

Structs数据类型使用建表:drop table if exists xxxxx_struct_test;create table xxxxx_struct_test(id INT, info struct)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','COLLECTION ITEMS TERMINATED BY ':';说明:'F

2017-11-09 16:08:23 3329

原创 Hive支持的数据类型

原生类型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复合类型:ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。arrays: ARRAYmaps: MAPstructs: STRUCTu

2017-11-09 11:00:26 813

原创 朋友发过来的“八个故事”

一、女浴室起火,里面人乱作一团,赤身往外跑,只见大街上白花花一大群,一老者大喊“快捂住”,众裸女突然醒悟,但身上要紧部位有三处,手忙脚乱捂不过来,不知所措。这时老者又大喊:“捂脸就行,下面都一样!” ­【此事的重要启示:在特殊情况下抓工作不可能面面俱到,要抓住重点。】­二、某日,女秘书神色凝重地说:王总,我怀孕了。 王继续低头看文件,然后淡淡一笑:我早结扎了。 女秘书楞了一会媚笑道:我和您开玩

2017-11-06 10:35:08 713 1

有赞数据仓库元数据系统的演进(有赞Data沙龙).pdf

有赞数据仓库元数据系统的演进

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明 详细的文档及解读的ppt

2019-03-22

NCR逻辑模型设计概览

逻辑模型设计 方法论;一些数据仓库建模时的参考,方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除