最近在寻找一些sql的项目实践,所以虽然此类分析用python会更加的便捷,但是仍旧选用SQL进行。另:文本粘贴 代码格式可能会不标准有误,用powerBI 绘图
1. 通过sql sever 任务 - 导入douyin.csv平面文件 ,同时调整数据类型(此步骤也可通过excel 提前对数据进行处理)
2.查看数据情况
select top 10 * from dbo.douyin -- 查看前10行的数据
3.pv, uv 分析
select H,
count(*)as h_pv,-- 小时:pv
count(distinct uid) as h_uv --小时:uv
from dbo.douyin
group by H
order by h_pv,h_uv desc --由此可见抖音用户主要活跃的时间为晚上19:00-24:00
select dates,
count(*)as day_pv,-- 日期:pv
count(distinct uid) as day_uv