一个简单的python网路爬虫示例——爬取《后来的我们》影评

本文通过Python实现了一个简单的网络爬虫,演示了如何爬取豆瓣电影《后来的我们》的用户评论。从获取网页源码到解析评论,再到爬取多页评论,最后讨论了如何通过设置延时应对网站的反爬机制。
摘要由CSDN通过智能技术生成

1.爬取第一页的所有影评

首先我们用百度搜索《后来的我们》影评,记录下此时的网址,如下:
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
在这里插入图片描述

右键当前页面,查看元素,我们可以发现在查看器中,所有的评论都是<p>来显示的,虽然后面的无关文字也有<p>来显示,但我们可以通过限制条件来只选出我们想要的评论。

在这里插入图片描述
接下来我们来选择网络,随便点击一个文件,在右边出现一个属性框,我们拉到最下面,记录下我们所用网页的User-Agent。
在这里插入图片描述
完成了所有准备工作,我们开始进行写代码。

为了完成我们的爬虫,我们需要导入两个库,一个是requests库,它用于向网页发送请求,具体用法详见linkhttps://www.cnblogs.com/xinz-study/p/9294452.html,另一个是bs4库中的BeautifulSoup类,用于获取网页的源码,具体用法详见linkhttps://www.jianshu.com/p/26a3632796dd

完整代码如下:

# 需要调用的requests库和 bs4库中的BeautifulSoup工具
import requests
from bs4 import BeautifulSoup

num = 0  # 定义条数的初始值

# 定义一个变量url,为需要爬取数据我网页网址
url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P'

# 获取这个网页的源代码,存放在req中,{
   }中为不同浏览器的不同User-Agent属性,怎么获取前面已经介绍
req = requests.get(url,{
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'})

# 生成一个Beautifulsoup对象,用以后边的查找工作
soup = BeautifulSoup(req.text, 'html.parser')

# 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中
xml 
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唱戏先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值