python爬虫爬取豆瓣电影

最新推荐文章于 2024-07-01 16:46:02 发布

tianrandai12

最新推荐文章于 2024-07-01 16:46:02 发布

阅读量1.2k

点赞数

分类专栏：网络编程

本文链接：https://blog.csdn.net/tianrandai12/article/details/105079654

版权

网络编程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

#-*- coding:utf-8 -*-
import requests
from lxml import etree
import time

url = 'https://movie.douban.com/subject/26942674/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
data = requests.get(url,headers=headers).text
#data = requests.get(url).text
s=etree.HTML(data)

film_name=s.xpath('//*[@id="content"]/h1/span[1]/text()')#电影名
director=s.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')#编剧

actor=s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')#主演
movie_time=s.xpath('//*[@id="info"]/span[13]/text()')#片长

#由于导演有时候不止一个人，所以我这里以列表的形式输出
ds = []
for d in director:
ds.append(d)

#由于演员不止一个人，所以我这里以列表的形式输出
acs = []
for a in actor:
acs.append(a)

print ('电影名:',film_name)
print ('导演:',ds)
print ('主演:',acs)
print ('片长:',movie_time)

"""
python中用于爬虫的包很多，如bs4，urllib，requests等等。
这里我们用requests+xpath的方式，因为简单易学，像BeautifulSoup还是有点难的。

下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。

上一篇文章已经讲了安装requests和lxml库：
原文链接：https://blog.csdn.net/MTbaby/article/details/79165890 """

tianrandai12

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取豆瓣电影

#-*- coding:utf-8 -*-import requestsfrom lxml import etreeimport timeurl = 'https://movie.douban.com/subject/26942674/'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb...
复制链接

扫一扫

专栏目录