0.目录
1.分析页面
2.初步代码
3.完整代码
4.总结
5.补充
1.分析页面
上一次我们讲了xpath获取豆瓣最新上映电影的海报,这一次会分析如何使用BeautifulSoup获取。
上篇链接
首先,进入豆瓣正在上映的页面,右键查看源代码,发现我们需要的海报url和电影名都在< img >这个标签下面,根据上一次的经验,还需要添加范围< div id=“nowplaying” >
2.初步代码
# encoding: utf-8
from bs4 import BeautifulSoup
from urllib import request
import requests
def get_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
'Referer': 'https://movie.douban.com/',
}
response = requests.get(url, headers)
return response.text
def get_img(url):
text = get_page(url)
# 创建BeautifulSoup对象
soup = BeautifulSoup(text, 'lxml')
# 限制获取到的img标签在【正在上映】内
new