Python数据分析——《隐秘的角落》开播之后就没下过热搜?

不会吧、不会吧,不会还有朋友没看《隐秘的角落》吧,如果没有断网的话,最近朋友圈、微博等都应该被这部只有十二集的国产网剧刷屏了。开播初豆瓣评分就已经达到9.0,甚至一度窜到9.2,要知道国产电视剧过9分的都寥寥无几,更何况还只是一部网剧,可能绝大部分人与这部剧本无缘,但是选择看剧的契机也正是这超高的评分。

经过朋友圈和微博的强烈安利,又在高评分的诱惑下,和家人一天刷完了这部神剧,看完这部剧主要有两个感受:

  • 全员演技都在线
  • 细~真的细、细到爆炸

平时看电视剧不多,国产剧就更少了,最大的一个感受就是有些演技真的是太尬了,一集电视剧四五十分钟,快进三十分钟?这部剧从小演员到专业演员,没有所谓的流量,至少所有人演技都在线,这也是我能坚持追剧的保障。

如果说演技是追剧的保障,那细节就应该是二刷的引子,追过剧之后我姐还在和我说一些小细节,比如录音笔的彩蛋呀、笛卡尔的梗呀,看剧时可能会感叹演技真不错,但值得回味的还是剧中的细节、伏笔,也是这些可能会吸引你去二刷。

每天靠微博热搜续命的我发现从这部剧上映到结局就没有下过热搜,这篇文章就通过Python可视化分析一下每天登上热搜的关键词,问题是微博只有实时热搜的榜单,而我们想获取的是这一段时间内的,万能百度后发现一个"热搜神器"满足需求,但缺点每条热搜可爬取的相关信息有些少。

审查之后发现网页有几个特征:

  • 每个网页的网址不发生改变
  • 网页内容以json形式存储
  • 网页的请求方式为POST
  • Form表单中,只有一个date发生改变

分析之后很容易得出,网站是通过控制Form表单中date的内容进而控制每天的热搜内容,那么爬虫的方式就很明确了,requests+json就足以应对,爬虫比较简单,就贴出一小部分代码,完整代码文末给出获取方式。

html = requests.post(url=url,headers=headers,data=form_data)
content = html.content.decode("utf-8")
datas = json.loads(content)

因为我们本意是只分析与《隐秘的角落》相关的热搜关键词,所以Duck不必保留所有的爬取内容,可以通过一些特有的关键词过滤,比如这部剧的名字、人物、热词,典型代表就是爬山梗。

我设定的时间区间为6.19-6.26共8天,最后爬取到与这部剧有关的热搜有87条:

通过观察爬取得到的数据会发现里面有一些重复的内容,但具体原因不明,这里对数据进行去重:

data.drop_duplicates(subset=None,keep='first',inplace=True)
data = data.reset_index(drop=True)

难免也会有些无关内容,样本数也不是很多,所以我们主观上确认一下热搜关键词,然后将无关内容删去即可,经过处理最后数据集剩下64条数据,也就是平均每天八条热搜。

搜索量Top10

先来看看这几天热度最高的10条热搜:

热度最高的是爬山梗,不知道会不会有景区用这个梗上一波热度!前十中秦昊自己就占了四个词条,再加上伊能静上"姐姐",快成热搜特邀嘉宾了。在这之前秦昊主演的悬疑剧《无证之罪》也引起了一波热度,编剧正是本剧原著作者紫金陈,拍手叫好。

热搜次数趋势

看一下这段时间热搜数量的趋势是怎样的:

在剧播出之初反响并不是很大,毕竟什么剧前期不论好坏,制作方都会先买一波热度,但到了中后期热搜词条的数量是越来越多的,在25号结局的前一天迎来高峰期,一天就有19条热搜。

pyecharts绘制曲线图时可以通过Line中的下面这个参数来设定阴影区间:

line.set_series_opts(
        markarea_opts=opts.MarkAreaOpts(
        data=[opts.MarkAreaItem(name="高峰期", x=("2020-06-24","2020-06-26"))]
        )

热度趋势

与热搜次数相匹配的热度如何?

每天的热度与热搜次数很符合正相关,热搜次数越多热度也会越高,25号整天的热搜点击量共有2400多万,结局当天的点击量也有2100多万,热度也不小。

我们都知道如果一个热搜词条点击量越高排名就越靠前,排名越靠前会影响点击量越来越高,所以如果热搜次数和点击量能有着正相关的关系,那么可以推出这些热搜大部分的排名都比较高。

排名区间占比

用饼图的比例显示来验证一下上面的推论:

历史最高排名达到前十的占比就有62%,前二十就已经达到了84%,所以与这部剧相关的热搜词条绝大部分的排名都是比较靠前的,这也正是热度高的一个很重要的原因。

关键词词频统计

前面我们通过关键词来过滤相关词条,那么有哪些关键词搜索次数较高呢?

剧名的搜索次数为26次,占比最多,大约有四成,这应该是理所当然的,毕竟剧比演员火才能体现出一部剧是真的不错,人比剧火就显着比较尴尬啦,人物"朱朝阳"的搜索次数9次,我对这个人物设定真的是惊了,感觉其他人对朱朝阳来说就和陪玩一样,不亏是考年级第一的孩子,都说原著的人物比剧里的还叼,不敢想象。

词云图

最后贴一幅权重词云图:

可以看到出现次数较多的关键词占权重也会比较大,比较突出的就是剧名、人物、演员还有小白船,记得小学六一儿童节的时候总会有班级表演这个歌舞的,看完这个剧真的全毁了,而且总是不自觉就会哼出来。

都说《隐秘的角落》是中国电视剧的曙光,但怕的就是模子已经给出来了,照着画也是件难事,如果中国影视业不改掉"演员>导演>编剧"这样的关系链真的很难翻身,毕竟就艺术而言,还是编剧更贴切一些,至少这部剧是值得一看的,安利一下还没看过的伙伴,个人觉得节奏偏慢,习惯快节奏的伙伴需要耐心些。

公众号【奶糖猫】后台回复"Kids"可获取源码和数据供参考

展开阅读全文

Python数据分析与挖掘

01-08
92讲视频课+16大项目实战+源码+¥800元课程礼包+讲师社群1V1答疑+社群闭门分享会=99元   为什么学习数据分析?       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。       从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。    本课程共包含五大模块: 一、先导篇: 通过分析数据分析师的一天,让学员了解全面了解成为一个数据分析师的所有必修功法,对数据分析师不在迷惑。   二、基础篇: 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。   三、数据采集篇: 通过网络爬虫实战解决数据分析的必经之路:数据从何来的问题,讲解常见的爬虫套路并利用三大实战帮助学员扎实数据采集能力,避免没有数据可分析的尴尬。   四、分析工具篇: 讲解数据分析避不开的科学计算库Numpy、数据分析工具Pandas及常见可视化工具Matplotlib。   五、算法篇: 算法是数据分析的精华,课程精选10大算法,包括分类、聚类、预测3大类型,每个算法都从原理和案例两个角度学习,让你不仅能用起来,了解原理,还能知道为什么这么做。

实用主义学Python(小白也容易上手的Python实用案例)

12-24
原价169,限时立减100元! 系统掌握Python核心语法16点,轻松应对工作中80%以上的Python使用场景! 69元=72讲+源码+社群答疑+讲师社群分享会  【哪些人适合学习这门课程?】 1)大学生,平时只学习了Python理论,并未接触Python实战问题; 2)对Python实用技能掌握薄弱的人,自动化、爬虫、数据分析能让你快速提高工作效率; 3)想学习新技术,如:人工智能、机器学习、深度学习等,这门课程是你的必修课程; 4)想修炼更好的编程内功,优秀的工程师肯定不能只会一门语言,Python语言功能强大、使用高效、简单易学。 【超实用技能】 从零开始 自动生成工作周报 职场升级 豆瓣电影数据爬取 实用案例 奥运冠军数据分析 自动化办公:通过Python自动化分析Excel数据并自动操作Word文档,最终获得一份基于Excel表格的数据分析报告。 豆瓣电影爬虫:通过Python自动爬取豆瓣电影信息并将电影图片保存到本地。 奥运会数据分析实战 简介:通过Python分析120年间奥运会的数据,从不同角度入手分析,从而得出一些有趣的结论。 【超人气老师】 二两 中国人工智能协会高级会员 生成对抗神经网络研究者 《深入浅出生成对抗网络:原理剖析与TensorFlow实现》一书作者 阿里云大学云学院导师 前大型游戏公司后端工程师 【超丰富实用案例】 0)图片背景去除案例 1)自动生成工作周报案例 2)豆瓣电影数据爬取案例 3)奥运会数据分析案例 4)自动处理邮件案例 5)github信息爬取/更新提醒案例 6)B站百大UP信息爬取与分析案例 7)构建自己的论文网站案例
©️2020 CSDN 皮肤主题: 像素格子 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值