0.目录
1.分析页面
2.初步代码
3.问题排解
4.下载代码
5.总结
1.分析页面
关于xpath网上有许多的教程了,关于xpath的介绍和语法都不在这里赘述,本篇主要讲解如何用xpath爬取豆瓣最新上映电影的海报,下载并且用电影名来命名文件,也就是我们主要获取海报的url和电影名。那些爬取电影详细资料和豆瓣TOP250也是大同小异的,而选择最新上映的电影是因为其中具有很强的代表性。
首先,进入豆瓣正在上映的页面,右键检查海报,发现我们需要的海报url和电影名都在这个标签下面,那就好办很多了。
2.初步代码:
# encoding: utf-8
import requests
from lxml import etree
from urllib import request
def get_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
'Referer': 'https://movie.douban.com/',
}
response = requests.get(url, headers)
return response.text
def get_img(url):
text = get_page(url)
html = etree.HTML(text)
# 获取所有的<img>标签
trs = html.xpath("//img")
for tr in trs:
# 获取<img>内的src和alt属性
url_img = tr.xpath