python爬虫之通过正则表达式获取豆瓣最新上映电影的海报

本文介绍了如何使用Python正则表达式抓取豆瓣最新上映电影的海报,并通过替换URL获取高清晰度的海报图片。在过程中遇到的HTTP 403错误,通过分析请求头的referer字段得以解决,实现了带有headers的图片下载。
摘要由CSDN通过智能技术生成

0.目录

1.分析页面
2.初步代码
3.代码解释
4.完整代码
5.提高海报质量
6.总结
7.更改后的完整代码

1.分析页面

上两次我们讲了xpath和beautifulsoup获取豆瓣最新上映电影的海报,这一次会使用正则表达式来获取。
xpath获取
BeautifulSoup获取

同样的,干活先看源代码
在这里插入图片描述

2.初步代码

这次我们同样是利用< img >标签下的src和alt获得我们想要的信息。

# encoding: utf-8

import requests
import re
from urllib import request


def get_page(url):
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
        'Referer': 'https://movie.douban.com/',
    }
    response = requests.get(url, headers)
    return response.text


def get_img(url):
    text = get_page(url)

    # 获取标签<div class="mod-bd">下的所有数据
    lis = re.findall(r' <div class="mod-bd">(.*?)</div>', text, re.DOTALL)[0]
    # 获取src和img
    urls_img = re.findall(r'<li class="poster">.*?<img.*?src="(.*?)".*?/>', lis, re.DOTALL)
    names = re.findall(r'<li class="poster">.*?<img.*?alt="(.*?)".*?/>', lis, re.DOTALL)
    for url_img in urls_img:
        print(url_img)
    for name in names:
        print(name)


def main():
    url = 'https://movie.douban.com/cinema/nowplaying/guangzhou/'
    get_img(url)


if __name__ == '__main__':
    main()

展示运行结果的一部分:
在这里插入图片描述

3.代码解释

这次使用了标签< div class=“mod-bd” >和< /div >来限制范围,其实我们还可以使用其他的标签。比如< ul class=“lists” >和< /ul >,< div id=“nowplaying” >和< div id=“upcoming” >。唯一要注意的是,正则所做的只是匹配文本,没有所谓的标签范围的匹配。比如之前xpath使用的< div id=“nowplaying” >和< /div >,是因为在HTML里< div >标签开始,必然有< /div >与之对应,而xpath是会对应这一级标签的。但在正则里是不认识这些标签的,而是文本。所以,如果你使用< div id=“nowplaying” >和< /

Python使用正则表达式暴力爬取豆瓣电影是一种可以快速获取电影信息的方法。首先,我们需要使用requests库获取豆瓣电影页面的HTML源代码。接下来,使用正则表达式对源代码进行匹配和提取。例如,如果我们想获取电影的名称、评分和导演信息,我们可以使用正则表达式匹配对应的HTML标签并提取出所需的文本信息。比如使用正则表达式" <span class="title">(.+?)</span>" 可以匹配到电影名称所在的标签。 接下来,我们可以通过循环遍历的方式不断获取更多的电影信息。假设每个页面显示20部电影,我们可以使用正则表达式找到下一页的链接,并不断访问并抓取数据。 当然,使用正则表达式爬取数据也有一些缺点。因为正则表达式往往较为复杂,所以代码可读性较差,容易出错和不易维护。此外,如果网页结构发生变化,我们需要手动修改正则表达式以适应变化,工作量较大。因此,当网页结构较为复杂或者需要爬取大量数据时,我们可以考虑使用更强大的爬虫框架如Scrapy,它集成了更多方便的功能,如自动跟踪链接和处理异步加载的数据等。 总之,对于简单的爬取任务,Python使用正则表达式暴力爬取豆瓣电影是一种比较直接且有效的方法。但是需要注意的是遵守豆瓣网站的爬虫规则,并且避免频繁请求造成对网站的负载过大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值