【一点分享】用Mysql分析豆瓣数据,竟有意外的收获,sql还能如此高级。

这两天在精选影视内容,已初步准(爬)备(虫)好了部分数据。(p.s. 对爬虫感觉兴趣的朋友请关注后续文章)按之前的数据分析七步法,下一步是数据处理。本次尝试完全使用Mysql来处理,不借用其他工具。

一、数据处理——数组字段拆分

上来的第一个难题就是电影的类型字段,是个多值类似数组格式,需要拆分。网上也有很多不同的解决方案,要用到自定义函数、存储教程、临时中间表、json,步骤较长,不易理解。要是有简洁的方法就好了。

笔者昨天分享了with使用,正好其中有使用with的递归来解决问题。还记得笔者是怎么对with评价的吗?那就是具备了编程语言的功能,今天再感受一回神奇魔力吧。

直接上图,简洁流畅,with的递归真是妙不可言。

二、统计分析

1、简单统计

2、窗口函数统计

3、关联过滤——inner join

三、作业

准备好的这份新数据,不只有以上的实战练习case,还有很多可做的。留下几道作业,有兴趣的朋友请在公众号后台回复sql获取数据库账号进行练习。

每年上映的评分最高和最低的剧影

出演过至少2部的演员有哪些,按部数倒序

单一导演和联合导演的剧影评分对比

评分前100的剧影来自哪些国家地区

以上作业代表是不同角度来分析——就是维度,通常以dim表示,还可以有维度交叉进行分析,后续文章再予分享,敬请关注。

说明:当前数据不完备,有些统计的结果不具有代表意义,权当训练。当数据集到一定规模后,再执行统计和分析,期待后续有意思的发现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值