使用requests爬取IT橘子

今天看了下IT橘子,想下载一些数据,但是接口已经关闭,所以就自己写了一个爬虫

在写的过程中发现以下几点,

1.想要拿到数据,必须要登陆

2.使用头文件时,浏览器千万不要写linux,最好就写windows,因为它会直接ban掉linux的浏览器

3.反爬虫很强,使用Cookie,可以使用的时间很短

4,有代理池或多个账号就加上吧,我这里就没有使用了,直接使用了不定时的延时(不要设定一个固定的延时,会ban)

5,尽量使用正则来筛选数据,因为,里面的JavaScript可能影响数据了,使用正则就不会了

下面是代码

import requests
import re
import pymongo
import random
import time


# 数据库初始化
client = pymongo.MongoClient("localhost", 27017)
# 获得数据库
db = client.itjz
# 获得集合
stu = db.itjz


headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": 

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值