demandProc
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
主播游戏专区开播时段范围统计
需求描述: 1、对应专区排名有20次及以上保持前20名记录的主播roomid、uid、昵称 2、上述拉出的各个专区的主播,在2017-12-08至2018-01-08期间,如果同一个时段被覆盖40分钟超过20次以上,记录为该时段主播 问题分析: 需求的第一部分可以很方便的拉出,关键是第二部分比较麻烦。 涉及到直播时间跨小时及跨天的处理;计算时段内的直播时长,有四个逻辑情况处理;针对跨天的原创 2018-01-11 14:49:21 · 1440 阅读 · 0 评论 -
Python获取Mysql及Hive数据计算并整合后插入到Mysql数据库
此代码通过将需要的数据分别从多个mysql数据源及hive数据源分别获取后,在python中进行整合合并,然后插入到时mysql数据库中。hive库中本有这些mysql的表,但由于只是用到了hive中的部分数据,在hive巨量数据中查询效率极低;而在mysql中进行其中一小部分的数据查询则能极大的提高查询效率。所以,代码涉及的数据源等处理相对比较复杂。数据本可以在hive中一个查询脚本跑完;也可以...原创 2018-04-16 14:08:42 · 1254 阅读 · 0 评论 -
Hive窗口函数计算累积值一例
需求描述: 时段:6月14日18点~6月18日 人群A:时段内赠送过【小甜粽,大甜粽,小咸粽,大咸粽】其中任意礼物的观众(请注意,可能小甜粽或者小咸粽会叫:甜粽或咸粽) 人群B:时段内收到过【小甜粽,大甜粽,小咸粽,大咸粽】其中任意礼物的主播(请注意,可能小甜粽或者小咸粽会叫:甜粽或咸粽)时段内,每个小时的如下数据: 阵营注解:截止统计时刻,主播收到的甜系礼物价值多,则该主播为“甜阵营”,主播收到...原创 2019-09-07 09:59:13 · 1527 阅读 · 0 评论 -
Python进行Hive处理后数据分别插入到不同的mysql表
数据插入及处理的方式其实并没有什么新花样,主要是hive处理后的数据表,相同的表,不同的字段插入到两个不同的mysql表中。/Users/nisj/PycharmProjects/BiDataProc/love/HiveDataSum2Mysql-0710forZw.py# -*- coding=utf-8 -*- import os import re import time import da...原创 2018-07-11 17:28:25 · 1132 阅读 · 0 评论 -
hql利用累积和数据处理一例
需求信息:3、关卡数据 3.1、关卡数据统计:数据组得到具体的活动Id,查询 vchushou数据库 jellyfish_playground_open , 线上数据库 jellyfish_playground ,表:event_game_stage_level, 记录数为关卡数 3.2、关卡明细信息表 event_game_stage_user_detail, 指定的活动Id - stage...原创 2018-07-11 19:31:18 · 470 阅读 · 0 评论