猫眼电影票房爬取到MySQL中_猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库...

最新推荐文章于 2024-03-17 20:54:56 发布

三种不同的红色

最新推荐文章于 2024-03-17 20:54:56 发布

阅读量1.2k

点赞数

文章标签：猫眼电影票房爬取到MySQL中

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29870587/article/details/113199573

版权

本文介绍了如何使用Python的requests和正则表达式爬取猫眼电影TOP100的电影信息，包括电影排名、名称、上映时间和评分，并通过pymysql将数据存储到MySQL数据库。

摘要由CSDN通过智能技术生成

前面讲了如何通过pymysql操作数据库，这次写一个爬虫来提取信息，并将数据存储到mysql数据库

1.爬取目标

爬取猫眼电影TOP100榜单

要提取的信息包括：电影排名、电影名称、上映时间、分数

2.分析网页HTML源码

可以看到每部电影信息都被包裹在一对

...标签中，所以我们只需提取出一个标签对中的上述信息即可。使用正则表达式提取

3. 完整过程

这个例子有2个关键点:正则编写和数据处理(写进mysql数据库)

(1) 正则表达式的编写

pattern = re.compile(r'

.*?(\d+).*?' # 匹配电影排名(加个?表示非贪婪匹配，不是匹配0次或1次)

r'

(.*?)' # 匹配电影名称

r'.*?

(.*?)' # 匹配上映时间

r'.*?(.*?)' # 匹配分数的整数位

r'.*?(.*?).*?

', re.S) # 匹配分数小数位，re.S表示跨行匹配

m = pattern.findall(html)

# print(m)

使用findall()方法来匹配所有符合规则的字符，返回一个列表，下面是其中一页的匹配结果

最低0.47元/天解锁文章

三种不同的红色

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
猫眼电影票房爬取到MySQL中_猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库...

前面讲了如何通过pymysql操作数据库，这次写一个爬虫来提取信息，并将数据存储到mysql数据库1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括：电影排名、电影名称、上映时间、分数2.分析网页HTML源码可以看到每部电影信息都被包裹在一对...标签中，所以我们只需提取出一个标签对中的上述信息即可。使用正则表达式提取3. 完整过程这个例子有2个关键点:正则编写和数据处理(写进mysql数据...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。