小白必看:用python爬取豆瓣电影

随便在豆瓣网站找个电影

图一
图一

在此网页点击鼠标右键找到查看网页源代码或者使用快捷键Ctrl+U。即会跳转到下方页面:

图二

获取地址栏url:https://movie.douban.com/subject/27186348/?tag=热门&from=gaia_video 

回到电影介绍页面 点击F12 

图三

点击network 找到requests headers 获取浏览器的User-Agent;

接下来通过requests.get(url,headers).text  获取url中我们需要的信息即图二的html文件;

想要从html中获取到我们需要的信息要引入etree;

如果我们想要查看电影名和导演以及演员,那么我们需要在html文件中找到对应的属性;

图四

通过图四可以看出以上关键词都在a标签中 且都包含 rel 这个属性;

因此我们可以通过xpath定位到我们想要获取关键词的位置,然后打印出来。

代码步骤如下:

import requests          #requests是向网页发出请求

from lxml import etree   #引入lxml中的etree

url='https://movie.douban.com/subject/27186348/?tag=热门&from=gaia_video'    #获取豆瓣电影的基本信息

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

get=requests.get(url,headers=headers).text

selector=etree.HTML(get)

info={}        #用来保存我们查找的信息

info['电影']=selector.xpath('//title/text()')[0].strip()

info['导演']=selector.xpath('//a[@rel="v:directedBy"]/text()')

info['演员']=selector.xpath('//a[@rel="v:starring"]/text()')

print(info)

 

运行结果如下:

图五

 

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,以下是利用 Python 豆瓣电影的基本步骤: 1. 安装相关库 我们需要使用 requests 库来发送 HTTP 请求,以及使用 BeautifulSoup 库来解析 HTML 页面。你可以使用以下命令安装这两个库: ```python pip install requests beautifulsoup4 ``` 2. 发送 HTTP 请求 我们可以使用 requests 库中的 get 方法来向豆瓣电影的网站发送 HTTP 请求,并获得响应: ```python import requests url = 'https://movie.douban.com/top250' response = requests.get(url) ``` 3. 解析 HTML 页面 我们可以使用 BeautifulSoup 库将响应的 HTML 页面解析成 BeautifulSoup 对象: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') ``` 4. 提电影数据 在 BeautifulSoup 对象中,我们可以使用 find 或 find_all 方法来查找特定的 HTML 标签和属性。通过查看豆瓣电影 Top250 页面的 HTML 结构,我们可以发现每个电影都包含在一个 class 为 "item" 的 div 标签中,而每个电影的名称和评分则分别包含在 class 为 "title" 和 "rating_num" 的 span 标签中。因此,我们可以使用以下代码来提电影名称和评分: ```python movies = soup.find_all('div', class_='item') for movie in movies: title = movie.find('span', class_='title').text.strip() rating = movie.find('span', class_='rating_num').text.strip() print(title, rating) ``` 以上就是利用 Python 豆瓣电影的基本步骤。当然,还可以根据需要提更多的电影数据,例如导演、演员、上映时间等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梁晨le

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值