python如何爬取豆瓣_python 爬虫之 爬取豆瓣网话题

6109855b8967334556e2f39ca0f3b47c.png

获取到以上信息后就可以开始写爬虫了

首先创建一个py文件,然后引入必要的包

import re,urllibfrombs4 import BeautifulSoup

import datetime, time

然后创建一个类:

class DouBanCrawler(object):

在这个类下写所有逻辑代码

1:初始化数据方法:

def __init__(self):'''Constructor''' self.session = SessionCrawler(sleepRange=[3, 8])

self.headers={'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.8','Cache-Control': 'max-age=0','Connection': 'keep-alive','Host': 'www.douban.com','Upgrade-Insecure-Requests': '1'}

这段代码我将headers参数全局话调用,内容是刚刚用f12查看到的

然后我用的是session工具来进行http请求,其中

self.session = SessionCrawler(sleepRange=[3, 8])

SessionCrawler是我封装的外部类

内容如下:

import requests

import time

import random

import tracebackclas

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值