说一说爬取中的踩得坑,印象太深刻了
- 缺失一些必要的请求头时,掘金网站不会报错,而是给你返回不相关的一推数据,关键这些数据从形式上看还很像请求拿回来的数据。就这个坑害我思索了很长时间,可能还是我太菜了吧~
- 掘金网热门文章刷新频繁,往往几分钟前在调试页面看到的数据,跟刚请求到的数据略有不同,这又让我纠结了一些时间
最后放上源码:
import requests, json,time
url = "https://api.juejin.cn/recommend_api/v1/article/recommend_all_feed"
info = {
"id_type":2,"client_type":2608<