hive
wm_43827516
这个作者很懒,什么都没留下…
展开
-
数仓搭建-ADS层
7.1 新数据生成1)重启行为数据通道[atguigu@hadoop102 module]$ cluster.sh stop[atguigu@hadoop102 module]$ cluster.sh start2)修改/opt/module/applog下的application.properties#业务日期mock.date=2020-06-16注意:分发至其他需要生成数据的节点[atguigu@hadoop102 applog]$ xsync application.proper原创 2020-11-10 23:35:09 · 1048 阅读 · 0 评论 -
数仓搭建-DWT层
6.1 设备主题宽表累积型表:1、找old (在当前层找,也就是当前要插入数据的表)new(当前层的下一层找)2、full outer join1)建表语句hive (gmall)> drop table if exists dwt_uv_topic;create external table dwt_uv_topic( `mid_id` string comment '设备id', `brand` string comment '手机品牌', `model`原创 2020-11-10 23:27:35 · 375 阅读 · 0 评论 -
数仓搭建-DWS层
5.1 业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。(没有注册账号,也认为是一个用户),Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。2)新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。3)活跃用户打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一原创 2020-11-10 23:24:54 · 814 阅读 · 0 评论 -
数仓搭建-DWD层
4.1 DWD层(用户行为日志解析)4.1.1 日志格式回顾(1)页面埋点日志(2)启动日志4.1.2 get_json_object函数使用1)数据[{“name”:“大郎”,“sex”:“男”,“age”:“25”},{“name”:“西门庆”,“sex”:“男”,“age”:“47”}]2)取出第一个json对象hive (gmall)>select get_json_object('[{"name":"大郎","sex":"男","age":"25"},{"name":"西门原创 2020-11-10 23:19:35 · 894 阅读 · 0 评论 -
数仓搭建
Yarn容量调度器并发度问题演示Yarn默认调度器为Capacity Scheduler(容量调度器),且默认只有一个队列——default。如果队列中执行第一个任务资源不够,就不会再执行第二个任务,一直等到第一个任务执行完毕。(1)启动1个hive客户端,执行以下插入数据的sql语句。hive (default)> insert into table student values(1,'abc');执行该语句,hive会初始化一个Spark Session,用以执行hive on spar原创 2020-11-03 23:09:49 · 170 阅读 · 0 评论 -
hive
Hive访问--先开启服务[atguigu@hadoop102 hive]$ nohup hive --service metastore>log.txt 2>&1 &[atguigu@hadoop102 hive]$ nohup hive --service hiveserver2>log2.txt 2>&1 &--启动beeline客户端[atguigu@hadoop102 hive]$ bin/beeline -u jdbc:hive原创 2020-11-02 21:52:30 · 357 阅读 · 0 评论