爬取豆瓣电影Top250影片信息

本文介绍了如何使用Python爬取豆瓣电影Top250的影片信息,包括安装必要的包如requests和etree,确定爬取的URL,设置请求头以避免反爬策略,解析HTML获取电影标题、导演、评分和简介,最后将数据保存为JSON格式。爬虫代码示例也一并给出。
摘要由CSDN通过智能技术生成

查看影片的详细信息

进入豆瓣电影Top250,选择某一影片,右击,选择“检查元素”。
在这里插入图片描述

爬取过程

需安装的包

安装requests、etree、json。

// An highlighted block
import json
import requests
from lxml import etree

确定爬取地址

由于豆瓣电影Top250是分页的,即计划爬取的影片信息分布在不同的页面上,其对应的网址不同,故需对不同的爬取地址统一格式。
在这里插入图片描述
代码如下:

// An highlighted block
url_list=[]
base_url="https://movie.douban.com/top250?start={}&filter="
for i in range(0,10):
    url=base_url.format(i*25)
    url_list.append(url)
print(url_list)

发送请求头

很多网站有反爬虫机制,如果发送没有haeders信息的请求,会被认为是爬虫,则会被禁止请求。设置header,通过request发送请求头。header中必须包含的信息有User_Agent,还可包括Host、Referer、Cookie等,查看方式如下。
在这里插入图片描述

发送请求代码如下:

// An highlighted block
header={
       
  " Host": "movie.douban.com""User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763"
    #Referer Cookie
}
for url in url_list:
    data=requests.get(url,headers=header,allow_redirects=False).content.decode()
    print(data)

解析数据

可利用BeautifulSoup或etree.HTML解析数据,此处使用后者。

// An highlighted block
xpath_data=etree
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值