python爬取内容重复输出_python3爬虫重复返回第一页

博主在尝试使用requests模块爬取'i春秋'网站16页课程名称时,发现返回结果始终为第一页课程。问题可能出在请求方式、URL参数更新或网站防爬策略上。建议检查POST请求的参数是否完整,尝试设置合适的延时或使用代理,以应对可能的防爬机制。
摘要由CSDN通过智能技术生成

预爬取“i春秋”课程栏目内 16页中的所有课程名称。

网页采取的是POST。

简单地用requests模块写出了文件,然而返回结果全是i春秋的第一页的课程名称。

请问是我代码问题还是i春秋的防爬机制比较强?

希望大佬们能给点指导,代码我就贴下面了。

import requests

import json

url_begining = 'https://www.ichunqiu.com/courses/ajaxCourses?IsExp=&courseDiffcuty=&courseTag=&orderDirection=&orderField=&pageIndex='

def request_all(url):

print(url)

headers = {

'Accept': 'application/json, text/javascript, */*; q=0.01',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Host': 'www.ichunqiu.com',

'Referer': 'https://www.ichunqiu.com/courses',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:56.0) Gecko/20100101 Firefox/56.0',

'X-Requested-With': 'XMLHttpRequest',

}

r = requests.get(url = url, headers = headers2)

data = json.loads(r.text)

name_long = len(data['course']['result'])

for i in range(name_long):

print(data['course']['result'][i]['courseName'])

for i in range(1,17):

url = url_begining + str(i) + '&producerId=&tagType='

request_all(url)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值