python爬虫之通过xpath获取豆瓣最新上映电影的海报

最新推荐文章于 2024-07-21 14:17:01 发布

启程QiCheng

最新推荐文章于 2024-07-21 14:17:01 发布

阅读量1.5k

点赞数 2

文章标签： python xpath 爬虫爬取豆瓣

本文链接：https://blog.csdn.net/qq_45243069/article/details/92803025

版权

本文介绍了如何使用Python的XPath解析技术抓取豆瓣最新上映电影的海报URL和电影名称，通过分析页面结构，定位到目标元素，并解决获取到非目标数据的问题，最终实现下载海报并以电影名命名文件。

摘要由CSDN通过智能技术生成

0.目录

1.分析页面
2.初步代码
3.问题排解
4.下载代码
5.总结

1.分析页面

关于xpath网上有许多的教程了，关于xpath的介绍和语法都不在这里赘述，本篇主要讲解如何用xpath爬取豆瓣最新上映电影的海报，下载并且用电影名来命名文件，也就是我们主要获取海报的url和电影名。那些爬取电影详细资料和豆瓣TOP250也是大同小异的，而选择最新上映的电影是因为其中具有很强的代表性。

首先，进入豆瓣正在上映的页面，右键检查海报，发现我们需要的海报url和电影名都在这个标签下面，那就好办很多了。

右键检查海报
右键查看源代码

2.初步代码：

# encoding: utf-8

import requests
from lxml import etree
from urllib import request


def get_page(url):
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
        'Referer': 'https://movie.douban.com/',
    }
    response = requests.get(url, headers)
    return response.text


def get_img(url):
    text = get_page(url)

    html = etree.HTML(text)
    # 获取所有的<img>标签
    trs = html.xpath("//img")

    for tr in trs:
        # 获取<img>内的src和alt属性
        url_img = tr.xpath