【python教程入门学习】Python爬虫抓取猫眼电影排行榜

最新推荐文章于 2024-08-09 22:15:00 发布

Python文泽老师

最新推荐文章于 2024-08-09 22:15:00 发布

阅读量1.9k

点赞数

分类专栏： python 文章标签： python 爬虫正则表达式 pycharm pygame

本文链接：https://blog.csdn.net/python_9988/article/details/120709945

版权

本文介绍了如何使用Python爬虫抓取猫眼电影网的TOP100电影排行榜信息，包括确定页面类型、URL规律、正则表达式以及编写爬虫程序的详细步骤，并给出了部分爬取结果。

摘要由CSDN通过智能技术生成

本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜（https://maoyan.com/board/4）影片信息，包括电影名称、上映时间、主演信息。

在开始编写程序之前，首先要确定页面类型（静态页面或动态页面），其次找出页面的 url 规律，最后通过分析网页元素结构来确定正则表达式，从而提取网页信息。

确定页面类型

点击右键查看页面源码，确定要抓取的数据是否存在于页面内。通过浏览得知要抓取的信息全部存在于源码内，因此该页面输属于静态页面。如下所示：

    <p class="name">
   <a href="/films/1200486" title="我不是药神" data-act="boarditem-click" data-val="{movieId:1200486}">我不是药神</a>
        </p>
    <p class="star">
            主演：徐峥,周一围,王传君
    </p>

上映时间：2018-07-05

确定url规律

想要确定 url 规律，需要您多浏览几个页面，然后才可以总结出 url 规律，如下所示：

最低0.47元/天解锁文章

Python文泽老师

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录