- 博客(15)
- 资源 (6)
- 收藏
- 关注
原创 Python进行主播收入统计的脚本
关注点:1、指定日期上一月份的获取2、取两月份间的所有月份清单3、mysql小表数据在hive上的插入装载4、Hive汇总数据向mysql插入1、Hive临时表及mysql目标表的准备Hive临时表:drop table if exists xxx_anchor_bringnew_detail_min;CREATE TABLE xxx_anchor_bringne
2017-11-30 11:26:20 640
原创 有关case when的两个sql案例
1、深层嵌套测试环境:Mysqlselect a1.`datetime`,a1.uid,a1.mic_game_id,a2.`name` gamename,case when a2.`name` in("创造与魔法","创造与魔法") then(case when a1.rank=1 then 100 when a1.rank between 2 and 3 then 60
2017-11-29 16:27:35 843
原创 Hive日期时间函数学习
1、日期字符串与unixtime互转日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式示例:select from_unixt
2017-11-21 17:26:28 1686
原创 初识Impala及与Hive对比
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计
2017-11-17 14:34:50 708
原创 对Hadoop生态圈的一个理解
来源:知乎作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者
2017-11-17 11:04:59 644
原创 Hive分析函数之CUME_DIST、PERCENT_RANK学习
这两个分析函数比较不常用,或许用在一些特别要求的场合。CUME_DIST 小于等于当前值的行数/分组内总行数。比如,统计小于等于当前薪水的人数,所占总人数的比例。PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1。1、CUME_DIST使用示例select pt_day,appkey,count(identifier),cume_dist()over(
2017-11-16 16:23:37 1743
原创 Hive中count统计数量的多种使用方式
其他环境没有试,Hive上肯定是可以的。可以在count里使用case when、distinct等处理,满足日常数据统计需求。select pt_day, count(*), count(uid),count(identifier), count(distinct uid),count(distinct identifier),
2017-11-16 15:06:46 37924
原创 Hive分析函数之ntile、排名函数学习
1、Ntile使用可以看成是:它把有序的数据集合平均分配到指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。语法是:ntile (num) over ([partition_clause] order_by_clause) as your_bucket_num然后可以根据桶号,选取前或后 n分之几的数据。
2017-11-16 14:17:04 5759
原创 Hive窗口函数之累积值、平均值、首尾值的计算学习
Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM() 、AVG()等使用;可以结合FIRST_VALUE() 和LAST_VALUE(),返回窗口的第一个和最后一个值。- 如果只使用partition by子句,未指定order by的话,我们的聚合是分组内的聚合. - 使用了order by子句,未使用window子句的情况下
2017-11-16 10:33:32 29189 1
原创 Hive分析函数之grouping sets、cube、rollup学习
源数据建表语句:hive> show create table bi_all_access_log;OKCREATE TABLE `bi_all_access_log`( `appsource` string, `appkey` string, `identifier` string, `uid` string)PARTITIONED BY ( `pt_mon
2017-11-15 19:31:03 2050
原创 用Hive分析函数lead计算用户页面的停留时长
Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。场景描述:用户Peter在浏览
2017-11-13 17:36:40 3789 1
原创 Hive分析函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE学习
数据准备:创建表:drop table if exists xxx_src_table;create table xxx_src_table(polno string,eff_date string,userno string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','stored as textfile;数据准备:[had
2017-11-13 11:10:25 1983
原创 Hive数据类型之Structs、Array、Map的使用
Structs数据类型使用建表:drop table if exists xxxxx_struct_test;create table xxxxx_struct_test(id INT, info struct)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','COLLECTION ITEMS TERMINATED BY ':';说明:'F
2017-11-09 16:08:23 3329
原创 Hive支持的数据类型
原生类型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复合类型:ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。arrays: ARRAYmaps: MAPstructs: STRUCTu
2017-11-09 11:00:26 813
原创 朋友发过来的“八个故事”
一、女浴室起火,里面人乱作一团,赤身往外跑,只见大街上白花花一大群,一老者大喊“快捂住”,众裸女突然醒悟,但身上要紧部位有三处,手忙脚乱捂不过来,不知所措。这时老者又大喊:“捂脸就行,下面都一样!” 【此事的重要启示:在特殊情况下抓工作不可能面面俱到,要抓住重点。】二、某日,女秘书神色凝重地说:王总,我怀孕了。 王继续低头看文件,然后淡淡一笑:我早结扎了。 女秘书楞了一会媚笑道:我和您开玩
2017-11-06 10:35:08 713 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人