爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)

由于本人爬取豆瓣影评的时候,我想爬取的比较完善,因为我看大多都是爬取短评而已,本人想爬取其他内容所以写下这篇,希望对大家有帮助。
一、pip对库的调用
下载命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple +库名
需要安装的库有 re,requests
内建库(time,random)
图:
在这里插入图片描述

二、确认网站是什么类型
判断网页时动态的还是静态的可以点击右键,查看网页源代码,在这里插入图片描述
复制“西楼尘”三个字在网页源代码中,具体方法时ctrl+f在这里插入图片描述
搜索,如果在网页源代码有内容提示的话(高亮题目)
在这里插入图片描述

基本就是可以确定时静态的(可以多复制其他内容实验一下)。通过这里可以知道该网站时静态的。
三、查询数据来源
我搜索的是“寄生兽”所以网址:https://movie.douban.com/subject/27010768/comments?start=0&limit=20&sort=new_score&status=P
在这里插入图片描述
可以看到有五个数据是我们想要的,然后打开网页源代码
在这里插入图片描述
通过re匹配抓取到 点赞人数,用户名,评分,发布时间,短评
但这个网页还需要抓取到 发布城市,加入时间也可以通过re正则爬取到。
在这里插入图片描述
点击链接,打开
找到想抓去内容在这里插入图片描述
7个数据就可以抓取下来了。
四、代码部分`

import re
import requests
import time
import random


def get_url(url):
    headers={
   
        "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36',
        "Cookie"
  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值