python爬虫爬取豆瓣

最新推荐文章于 2024-06-30 11:55:03 发布

小歘欻

最新推荐文章于 2024-06-30 11:55:03 发布

阅读量134

点赞数

分类专栏： Python爬虫文章标签： python xpath 爬虫

本文链接：https://blog.csdn.net/qq_33840688/article/details/119387280

版权

Python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

import requests
from lxml import etree

url = 'https://movie.douban.com/'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
    'referer': 'https://www.douban.com/'
}
response = requests.get(url, headers=headers)
text = response.text

html = etree.HTML(text)
movie_all = html.xpath("//div[@class='screening-bd']//li[@class='ui-slide-item' or @class='ui-slide-item s']")

for movie_all in movie_all:
    movie_link = movie_all.xpath('.//li[@class="poster"]/a/@href')
    movie_picture = movie_all.xpath('.//li[@class="poster"]//img/@src')
    movie_title = movie_all.xpath('./@data-title')
    movie_rating = movie_all.xpath('./@data-rate')
    print(movie_link, movie_picture, movie_title, movie_rating)

通过网页定位得到正在热映的电影

通过xpath语法得到详情页和图片

打印爬取的结果

小歘欻

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取豆瓣

import requestsfrom lxml import etreeurl = 'https://movie.douban.com/'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36', 'referer': 'https://www.douba.
复制链接

扫一扫

专栏目录