影刀RPA实战:网页爬虫之电影数据

1.实战目标

电影自媒体是指个人或团队通过互联网平台,如微博、微信公众号、抖音、B站等,发布与电影相关的内容,包括但不限于电影评论、推荐、幕后制作揭秘、明星访谈等。这些内容旨在吸引电影爱好者,并与之互动,构建起一定的观众群体。

那么做电影自媒体的伙伴们,不免经常需要在网站上查询获取电影数据,手动下载图片,预告片,摘录影片信息,今天给大家带来一个影刀机器人工具,能自动爬取猫眼电影网的数据。

猫眼电影是中国知名的电影票务平台,提供包括电影票预订、电影资讯、影迷互动等服务。它通过收集和分析大量的用户数据和市场数据,为电影行业提供多种服务和功能。是做自媒体伙伴们的一个很好的资料网站

今天我们主要获取即将上映的电影信息

我们需要获取电影名称,类型,区域,上映日期,剧情,主要演职人员,预告片,图集等

爬取猫眼电影数据时,必须遵守相关法律法规,尊重数据所有权和隐私权,合法合规地使用数据。

2.实战结果展示

电影数据,我们使用excel存放。

每个电影依据名称创建一个文件夹保存

每个文件夹中有图集与预告片

当我们有这些资料在手,那么做视频剪辑,配音也就容易多了。

3.实战步骤

3.1 打开猫眼网站 进入目标网址

进入猫眼网站,我们选择电影,即将上映电影,然后按照时间排序,查询出未上映的电影列表信息,这里一定要选择按照时间排序,否则不会获取到即将上映的电影,当然你要获取热门电影也是可以的,依据需求

3.2 循环电影列表页

使用网页批量抓取功能,将数据缓存到数据列表中,然后我们循环数据列表,打开每一步电影的详情页面,采集电影数据。

实战仅展示当前页数据,没有设置多页采集,通过之前的影刀实战,我相信大家都能设置。

3.3 详情页获取影片信息

数据主要集中在这两块。这里我们循环相似元素来循环获取各个元素信息,对于剧情,我们单独获取文字信息。

当采集数据时,我们首先是需要观察他,看他符合那种特征,再寻找合适的指令去操作。能批量操作的尽量批量操作,可以节省时间和复杂性。

相应代码

在详情页面 我们创建一个文件夹,来保存图集与预告片,这个文件夹参数需要传递到子流程图集与预告片中

3.4 获取图集

将电影图片下载到本地保存,我们使用图片的索引来命名图片名称,从零开始。

图片宽高设置:网页展示的图片是小图,如果直接下载,那么是不能使用,我们需要替换图片地址的宽与高,将106替换长600

https://p0.pipi.cn/mmdb/fb7386929ab5bfb12d3139c99931c1fd4c1fd.jpg?imageView2/1/w/106/h/106

当图片特别多时,我们需要下滑网页,才能获取到全部图片,我们使用鼠标滚动网页,一屏的一屏获取

3.5 获取预告片

预告片页面

循环获取预告片,将每一个都保存到本地

4.指令解析

http下载:通过 HTTP 下载文件,主要是下载网络资料,图片,文件都可以使用这个指令操作。

下载地址:输入或选择下载请求地址

文件保存目标:设置下载文件保存本地目录,若不存在则自动创建

指定文件名:默认会自动从下载地址上解析文件名,若勾选则自定义文件名

超时时间(秒):最大等待的下载时间,默认300秒

保存下载文件名称到:保存获取到的完整的文件名为变量

 

5.最后

感谢大家,请大家多多支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微刻时光

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值