接1.12日的博客:
create external table locale(
locale_id int,
locale string
)
row format delimited
fields terminated by '\t'
location '/user/event/data/locale';
create external table time_zone(
time_zone_id int,
time_zone string
)
row format delimited
fields terminated by ','
location '/user/event/data/time_zone';
每个用户有多少个朋友?
user_friend
注意点,在重做的时候,记得user_friend表的数据是从hb_user_friend中导入的
create table user_friend
stored as ORC AS
select * from hb_user_friend
但是,bh_user_friend表的数据不是直接通过flume导入Kafka的user_friend_raw
而是通过Kafka stream处理后的数据!!!!
2020.12.08课堂笔记(从flume读取数据连接到Kafka中) 文末附有代码
否则user_friend_raw的形式是event,yes,maybe,invited,no而不是3列
第二个问题:
由于处理字段的时候 invited 的 attend_type 是 invite 而不是 invited
所以和课上的代码有出入,但效果是一样的,只是在类型的时候需要使用 invite
同样的 event_attendee 的数据也是经过Kafka stream 处理过的。
create table user_friend_count stored as orc as
select user_id,count(1) friend_count from user_friend group by user_id ;
这个事件event_id有多少个朋友user_id邀请了 来,不来,可能来
create table event_attendee_count stored as orc as
select event_id,attend_type,count(1) attend_count
from event_attendee