使用requests爬取IT橘子

最新推荐文章于 2024-05-03 14:23:24 发布

半吊子Py全栈工程师

最新推荐文章于 2024-05-03 14:23:24 发布

阅读量7.4k

点赞数

分类专栏：爬虫 python之多方面应用文章标签：爬虫 requests python3 MongoDB IT橘子

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26877377/article/details/79749984

版权

今天看了下IT橘子，想下载一些数据，但是接口已经关闭，所以就自己写了一个爬虫

在写的过程中发现以下几点，

1.想要拿到数据，必须要登陆

2.使用头文件时，浏览器千万不要写linux，最好就写windows，因为它会直接ban掉linux的浏览器

3.反爬虫很强，使用Cookie，可以使用的时间很短

4，有代理池或多个账号就加上吧，我这里就没有使用了，直接使用了不定时的延时（不要设定一个固定的延时，会ban）

5，尽量使用正则来筛选数据，因为，里面的JavaScript可能影响数据了，使用正则就不会了

下面是代码

import requests
import re
import pymongo
import random
import time

# 数据库初始化
client = pymongo.MongoClient("localhost", 27017)
# 获得数据库
db = client.itjz
# 获得集合
stu = db.itjz

headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language":

最低0.47元/天解锁文章

半吊子Py全栈工程师

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用requests爬取IT橘子

今天看了下IT橘子，想下载一些数据，但是接口已经关闭，所以就自己写了一个爬虫在写的过程中发现以下几点，1.想要拿到数据，必须要登陆2.使用头文件时，浏览器千万不要写linux，最好就写windows，因为它会直接ban掉linux的浏览器3.反爬虫很强，使用Cookie，可以使用的时间很短4，有代理池或多个账号就加上吧，我这里就没有使用了，直接使用了不定时的延时（不要设定一个固定的延时，会ban）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。