2021.1.26课堂笔记(对于hive中的表，提取特征做需求分析)

最新推荐文章于 2022-11-26 14:37:32 发布

超可爱慕之

最新推荐文章于 2022-11-26 14:37:32 发布

阅读量303

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_48758256/article/details/113151612

版权

接1.12日的博客：

create external table locale(
locale_id int,
locale string
)
row format delimited
fields terminated by '\t'
location '/user/event/data/locale';



create external table time_zone(
time_zone_id int,
time_zone string
)
row format delimited
fields terminated by ','
location '/user/event/data/time_zone';


每个用户有多少个朋友？
user_friend
注意点，在重做的时候，记得user_friend表的数据是从hb_user_friend中导入的
create table user_friend
stored as ORC AS
select * from hb_user_friend
但是，bh_user_friend表的数据不是直接通过flume导入Kafka的user_friend_raw
而是通过Kafka stream处理后的数据！！！！
2020.12.08课堂笔记(从flume读取数据连接到Kafka中)  文末附有代码
否则user_friend_raw的形式是event,yes,maybe,invited,no而不是3列
第二个问题：
由于处理字段的时候 invited 的 attend_type 是 invite 而不是 invited
所以和课上的代码有出入，但效果是一样的，只是在类型的时候需要使用 invite 

同样的 event_attendee 的数据也是经过Kafka stream 处理过的。


create table user_friend_count stored as orc as
select user_id,count(1) friend_count from user_friend group by user_id ;


这个事件event_id有多少个朋友user_id邀请了  来，不来，可能来

create table event_attendee_count stored as orc as
select event_id,attend_type,count(1) attend_count
from event_attendee