python如何爬取豆瓣_python 爬虫之爬取豆瓣网话题

最新推荐文章于 2024-03-16 10:00:00 发布

风扇爱好者

最新推荐文章于 2024-03-16 10:00:00 发布

阅读量848

点赞数

文章标签： python如何爬取豆瓣

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26938645/article/details/113659674

版权

获取到以上信息后就可以开始写爬虫了

首先创建一个py文件，然后引入必要的包

import re,urllibfrombs4 import BeautifulSoup

import datetime, time

然后创建一个类：

class DouBanCrawler(object):

在这个类下写所有逻辑代码

1：初始化数据方法：

def __init__(self):'''Constructor''' self.session = SessionCrawler(sleepRange=[3, 8])

self.headers={'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.8','Cache-Control': 'max-age=0','Connection': 'keep-alive','Host': 'www.douban.com','Upgrade-Insecure-Requests': '1'}

这段代码我将headers参数全局话调用，内容是刚刚用f12查看到的

然后我用的是session工具来进行http请求,其中

self.session = SessionCrawler(sleepRange=[3, 8])

SessionCrawler是我封装的外部类

内容如下：

import requests

import time

import random

import tracebackclas

最低0.47元/天解锁文章

风扇爱好者

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python如何爬取豆瓣_python 爬虫之爬取豆瓣网话题

获取到以上信息后就可以开始写爬虫了首先创建一个py文件，然后引入必要的包import re,urllibfrombs4 import BeautifulSoupimport datetime, time然后创建一个类：class DouBanCrawler(object):在这个类下写所有逻辑代码1：初始化数据方法：def __init__(self):'''Constructor''' ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。