python爬取猫眼电影top100

最新推荐文章于 2024-07-02 10:24:12 发布

an13083611535

最新推荐文章于 2024-07-02 10:24:12 发布

阅读量341

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/xiaozx/p/10680548.html

版权

最近想研究下python爬虫，于是就找了些练习项目试试手，熟悉一下，猫眼电影可能就是那种最简单的了。

1 看下猫眼电影的top100页面

分了10页，url为：https://maoyan.com/board/4?offset=0

我们发起请求，得到相应：

我们

我使用的是requests库，这是一个第三方的库。

2 利用正则解析爬取下的页面

当然你也可以使用xpath和bs4。

我们先看一下网页的源代码：

然后根据代码写出要匹配的正则，然后对匹配出来的数据做解析:

3 将抓到的数据写入本地文件

4 最后得到的页面

5 一点小扩充

虽然实现了爬取的功能，但是其实这个程序还可以扩充

普通版：利用for循环实现爬取

多进程版：利用进程池创建多进程

第一种方式：

第二种方式:

转载于:https://www.cnblogs.com/xiaozx/p/10680548.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取猫眼电影top100

最近想研究下python爬虫，于是就找了些练习项目试试手，熟悉一下，猫眼电影可能就是那种最简单的了。1 看下猫眼电影的top100页面分了10页，url为：https://maoyan.com/board/4?offset=0我们发起请求，得到相应：我们我使用的是requests库，这是一个第三方的库。2 利用正则解析爬取下的页面当然你也可以使用xpath...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。