Python爬虫学习（一）使用Requests和正则表达式爬取简单网页

最新推荐文章于 2024-08-21 18:19:42 发布

HJ_彼岸

最新推荐文章于 2024-08-21 18:19:42 发布

阅读量1.9w

点赞数 17

分类专栏： python 文章标签：爬虫 python requests 正则表达式

本文链接：https://blog.csdn.net/whjkm/article/details/80846544

版权

本文介绍了如何使用Python的Requests库和正则表达式爬取猫眼电影TOP100的电影信息，包括电影名称、主演、上映时间、评分和图片。首先分析网页结构，然后发送HTTP请求，接着利用正则表达式解析HTML，最后将数据保存到文本文件。完整代码展示了如何实现多进程抓取以提高效率。

摘要由CSDN通过智能技术生成

1.概述

使用Requests库和正则表达式爬取猫眼电影TOP100中的电影信息，包括电影名称、主演、上映时间、评分、图片等信息。然后将获取的信息保存到文本文件。

2.网页分析

要爬取的网页为猫眼电影TOP100 http://maoyan.com/board/4
网页页面如下所示：
猫眼TOP100
看一下页面的显示规律是怎样的，一页是显示10部电影名称。第二页的url和内容如下所示：url为：http://maoyan.com/board/4?offset=10
可以看出和第一页的url的主要差别为后面的offset，要抓取后面的网页的内容，只要在url后面加上相应的offset参数就可以了。

3.请求网页

首先请求一个页面，通过requests中的get方法，请求网页。

# 获取单个页面
def get_one_page(url):
    try:
        # 添加头部信息
        headers = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        # 进行状态码判断，是否正确读取到网页
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

测试是否成功获取到网页的页面信息。

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)

3.正则表达式

获取到网页的信息之后，就需要用正则表达式来解析网页，抓取我们所需要的信息；打开浏览器的审查元素功能，查看网页的源码，查找我们需要抓取的信息在哪个位置。
TOP100源码
以第一个电影为例：分析源码。可以看到我们所需要的信息都包含在下面的html代码中。

    <dd>
    <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt=<