今天看了下IT橘子,想下载一些数据,但是接口已经关闭,所以就自己写了一个爬虫
在写的过程中发现以下几点,
1.想要拿到数据,必须要登陆
2.使用头文件时,浏览器千万不要写linux,最好就写windows,因为它会直接ban掉linux的浏览器
3.反爬虫很强,使用Cookie,可以使用的时间很短
4,有代理池或多个账号就加上吧,我这里就没有使用了,直接使用了不定时的延时(不要设定一个固定的延时,会ban)
5,尽量使用正则来筛选数据,因为,里面的JavaScript可能影响数据了,使用正则就不会了
下面是代码
import requests
import re
import pymongo
import random
import time
# 数据库初始化
client = pymongo.MongoClient("localhost", 27017)
# 获得数据库
db = client.itjz
# 获得集合
stu = db.itjz
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language":