2017年11月_BabyFish13

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Python进行主播收入统计的脚本

关注点：1、指定日期上一月份的获取2、取两月份间的所有月份清单3、mysql小表数据在hive上的插入装载4、Hive汇总数据向mysql插入1、Hive临时表及mysql目标表的准备Hive临时表：drop table if exists xxx_anchor_bringnew_detail_min;CREATE TABLE xxx_anchor_bringne

2017-11-30 11:26:20 640

原创有关case when的两个sql案例

1、深层嵌套测试环境：Mysqlselect a1.`datetime`,a1.uid,a1.mic_game_id,a2.`name` gamename,case when a2.`name` in("创造与魔法","创造与魔法") then(case when a1.rank=1 then 100 when a1.rank between 2 and 3 then 60

2017-11-29 16:27:35 843

原创 Hive日期时间函数学习

1、日期字符串与unixtime互转日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式示例:select from_unixt

2017-11-21 17:26:28 1686

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计

2017-11-17 14:34:50 708

原创对Hadoop生态圈的一个理解

来源：知乎作者：Xiaoyu Ma链接：https://www.zhihu.com/question/27974418/answer/38965760大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者

2017-11-17 11:04:59 644

原创 Hive分析函数之CUME_DIST、PERCENT_RANK学习

这两个分析函数比较不常用，或许用在一些特别要求的场合。CUME_DIST 小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例。PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1。1、CUME_DIST使用示例select pt_day,appkey,count(identifier),cume_dist()over(

2017-11-16 16:23:37 1743

原创 Hive中count统计数量的多种使用方式

其他环境没有试，Hive上肯定是可以的。可以在count里使用case when、distinct等处理，满足日常数据统计需求。select pt_day, count(*), count(uid),count(identifier), count(distinct uid),count(distinct identifier),

2017-11-16 15:06:46 37924

原创 Hive分析函数之ntile、排名函数学习

1、Ntile使用可以看成是：它把有序的数据集合平均分配到指定的数量（num）个桶中, 将桶号分配给每一行。如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差1。语法是：ntile (num) over ([partition_clause] order_by_clause) as your_bucket_num然后可以根据桶号，选取前或后 n分之几的数据。

2017-11-16 14:17:04 5759

原创 Hive窗口函数之累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等；可以结合聚集函数SUM() 、AVG()等使用；可以结合FIRST_VALUE() 和LAST_VALUE()，返回窗口的第一个和最后一个值。- 如果只使用partition by子句,未指定order by的话,我们的聚合是分组内的聚合. - 使用了order by子句,未使用window子句的情况下

2017-11-16 10:33:32 29189 1

原创 Hive分析函数之grouping sets、cube、rollup学习

源数据建表语句：hive> show create table bi_all_access_log;OKCREATE TABLE `bi_all_access_log`( `appsource` string, `appkey` string, `identifier` string, `uid` string)PARTITIONED BY ( `pt_mon

2017-11-15 19:31:03 2050

原创用Hive分析函数lead计算用户页面的停留时长

Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接，并且LAG和LEAD有更高的效率，其中over()表示当前查询的结果集对象，括号里面的语句则表示对这个结果集进行处理。场景描述：用户Peter在浏览

2017-11-13 17:36:40 3789 1

原创 Hive分析函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE学习

数据准备：创建表：drop table if exists xxx_src_table;create table xxx_src_table(polno string,eff_date string,userno string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','stored as textfile;数据准备：[had

2017-11-13 11:10:25 1983

原创 Hive数据类型之Structs、Array、Map的使用

Structs数据类型使用建表：drop table if exists xxxxx_struct_test;create table xxxxx_struct_test(id INT, info struct)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','COLLECTION ITEMS TERMINATED BY ':';说明：'F

2017-11-09 16:08:23 3329

原创 Hive支持的数据类型

原生类型：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复合类型：ARRAY,MAP,STRUCT,UNION，这些复杂类型是由基础类型组成的。arrays: ARRAYmaps: MAPstructs: STRUCTu

2017-11-09 11:00:26 813

原创朋友发过来的“八个故事”

一、女浴室起火，里面人乱作一团，赤身往外跑，只见大街上白花花一大群，一老者大喊“快捂住”，众裸女突然醒悟，但身上要紧部位有三处，手忙脚乱捂不过来，不知所措。这时老者又大喊：“捂脸就行，下面都一样！” 【此事的重要启示：在特殊情况下抓工作不可能面面俱到，要抓住重点。】二、某日,女秘书神色凝重地说：王总,我怀孕了。王继续低头看文件,然后淡淡一笑:我早结扎了。女秘书楞了一会媚笑道:我和您开玩

2017-11-06 10:35:08 713 1

有赞数据仓库元数据系统的演进（有赞Data沙龙）.pdf

有赞数据仓库元数据系统的演进

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明详细的文档及解读的ppt

2019-03-22

NCR逻辑模型设计概览

逻辑模型设计方法论；一些数据仓库建模时的参考，方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人