网络爬虫之豆瓣评论、原文摘要抓取

本文介绍了如何利用Python爬虫抓取豆瓣图书的长评论和原文摘要,揭示了在不登录状态下,长评论与读书笔记无限制抓取的秘密。通过给出的源码示例,演示了针对《人间失格》一书的爬取过程,并分享了项目支持多本书同时抓取及数据存储在MongoDB中的实现。同时,提供了个人GitHub链接,邀请读者一起探讨。
摘要由CSDN通过智能技术生成

前言
相信很多观众老爷们喜欢耍豆瓣啥的,看看书,喝喝茶的(ps:拉倒吧),哈哈哈,经过10800秒的研究,我分析了豆瓣图书的结构,发现在不登录的情况下,短评论只能爬取220条的数据,但是!!!注意!!!!

长评论是没有限制的啊,那还不用力抓???原文摘录和读书笔记都是没有限制额,还不抓???安排

首先先安排给观众老爷们看看效果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
兴奋起来了不,来,我们上源码,然后尝试使用

# -*- coding:utf-8 -*-
import re
import threading
import time
from random import randint
import pymongo
import requests
from lxml import etree
from tqdm import tqdm


class DouBanBook():
    '''豆瓣书评、摘录、读书笔记抓取'''
    def __init__(self, *args):
        self.book_id = args
        self.base_url = 'https://book.douban.com/subject/'
        self.book_content_url = [] # 获取图书主页url
        self.book_original_url = [] # 获取图书原文摘录url
        self.book_comments_url = [] # 获取图书评论url
        self.book_notes_url = [] # 获取图书笔记url
        self.book_name = [] # 获取书名
        self.proxy = {
            'http':'http://127.0.0.1:8080'
        }
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'
        }

    def config_url(self):
        '''配置起始抓取网页地址'''
        print('配置起始地址...')
        for book_id in tqdm(self.book_id):
            # 配置起始地址
            temp = self.base_url + str(book_id)
            self.book_content_url.append(temp)
            self.book_original_url.append(temp + '/blockquotes')
            self.book_comments_url.append(temp + '/reviews')
            self.book_notes_url.append(temp + '/annotation')

    def get
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值