python爬取内容重复输出_python3爬虫重复返回第一页

最新推荐文章于 2024-03-14 06:19:07 发布

weixin_39781143

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量438

点赞数

文章标签： python爬取内容重复输出

博主在尝试使用requests模块爬取'i春秋'网站16页课程名称时，发现返回结果始终为第一页课程。问题可能出在请求方式、URL参数更新或网站防爬策略上。建议检查POST请求的参数是否完整，尝试设置合适的延时或使用代理，以应对可能的防爬机制。

摘要由CSDN通过智能技术生成

预爬取“i春秋”课程栏目内 16页中的所有课程名称。

网页采取的是POST。

简单地用requests模块写出了文件，然而返回结果全是i春秋的第一页的课程名称。

请问是我代码问题还是i春秋的防爬机制比较强？

希望大佬们能给点指导，代码我就贴下面了。

import requests

import json

url_begining = 'https://www.ichunqiu.com/courses/ajaxCourses?IsExp=&courseDiffcuty=&courseTag=&orderDirection=&orderField=&pageIndex='

def request_all(url):

print(url)

headers = {

'Accept': 'application/json, text/javascript, */*; q=0.01',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Host': 'www.ichunqiu.com',

'Referer': 'https://www.ichunqiu.com/courses',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:56.0) Gecko/20100101 Firefox/56.0',

'X-Requested-With': 'XMLHttpRequest',

}

r = requests.get(url = url, headers = headers2)

data = json.loads(r.text)

name_long = len(data['course']['result'])

for i in range(name_long):

print(data['course']['result'][i]['courseName'])

for i in range(1,17):

url = url_begining + str(i) + '&producerId=&tagType='

request_all(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39781143

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python—爬取贴吧前三页数据

qq_43143203的博客

12-06

1834

import requests class TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn={}" self.hea...

为什么Python爬虫一直重复爬取第一页的内容

Lemon_1305的博客

09-01

3295

import requests import urllib from lxml import html #需要爬数据的网址 j=0 #!s-p3 for k in range(1,20): url='https://www.duitang.com/search/?kw=%E6%AD%A3%E5%A4%AA&type=feed'+'#!s-p'+str(k) page=requests.Session().get(url) tree=html.fromstring(p.

参与评论您还未登录，请先登录后发表或查看评论

python 自增爬去网页_Python3.6 下的爬虫总是重复爬第一页的内容

weixin_30735701的博客

02-03

401

问题如题：改成while，试了很多，然没有效果，请教大家# coding:utf-8#from lxml import etreeimport requests,lxml.html,osclass MyError(Exception):def __init__(self, value):self.value = valuedef __str__(self):return repr(self.val...

python爬取内容重复输出_使用scrapy爬取新浪电影库，只能爬取到前两页内容，后边全是重复页面...

weixin_39917437的博客

11-25

172

importscrapyfromsina.itemsimportMovieItemfromscrapy_splashimportSplashRequestimporttimeimportreclassSinaspiderSpider(scrapy.Spider):name='sinaspider'allowed_domains=['ent.sina.com.cn']st...

python3怎么重复上一句_python3爬虫重复返回第一页

weixin_36116139的博客

03-01

157

预爬取“i春秋”课程栏目内 16页中的所有课程名称。网页采取的是POST。简单地用requests模块写出了文件，然而返回结果全是i春秋的第一页的课程名称。请问是我代码问题还是i春秋的防爬机制比较强？希望大佬们能给点指导，代码我就贴下面了。import requestsimport jsonurl_begining = 'https://www.ichunqiu.com/courses/ajaxC...

python爬取第一PPT爬虫PPT

12-24

标题中的“python爬取第一PPT爬虫PPT”指的是使用Python编程语言编写网络爬虫程序，目标是抓取特定网站上的PPT资源。描述提到的“附带详细教程，合适新手学习python”表明这是一个适合初学者的教程，旨在教授如何...

python爬虫爬取多个页面_Python 爬虫爬取多页数据

weixin_39583222的博客

11-21

9766

但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是使用JS动态加载的，而且没有地址，只有一个skipToPage(..)函数。所以，解决方案是：获得请求信息，包括header和 form data(表单信息)模拟请求，获得数据分析数据，获得结果以下为...

python爬取论坛付费内容_python 网络爬虫（一）爬取天涯论坛评论

weixin_39842617的博客

11-24

1264

我是一个大二的学生，也是刚接触python，接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛，中途碰到了很多问题，就想把这些问题分享出来，都是些简单的问题，希望大佬们以宽容的眼光来看一个小菜鸟????，这也是我第一次写博客，代码有哪里写的不好的地方，需要改进的地方希望大家也可以帮我指出。用到的包有requests - BeautSoup我爬的是天涯论坛的财经论坛：‘http://bbs.tianya.cn/li...

python爬取新闻网站内容_python爬虫案例：抓取网易新闻

weixin_39752941的博客

11-23

1430

此文属于入门级级别的爬虫，老司机们就不用看了。本次主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。首先我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击Network，我们一直...

《Python3网络爬虫开发实战代码》_python3_creaturerl3_python3爬虫_python_

09-29

【Python3网络爬虫开发实战代码】是一本深入讲解...全面讲解了Python3爬虫的各个方面，包括基础语法、网络请求、网页解析、数据存储以及安全测试，为读者提供了丰富的知识和技术储备，是Python爬虫学习者的宝贵资源。

用python的requests库爬取多页论坛数据，结果却是最后一页数据的重复

sweet_x_的博客

07-28

721

如题，爬取数据过程中用append添加每一页数据，总共100页，最后发现是最后一页的数据重复了一百遍。出现这种的问题的原因一般是什么？谢谢。

python （输出页面）

weixin_62870380的博客

03-25

1672

1、PPT上五个控制台界面 2、要求定义两个数，并且交换它们的值（请使用多种方式，越多越好）一、PPT上五个控制台界面 print("\t英雄联盟商城登录界面\n") print("~ *"*13) print("\t1.用户登录\n") print("\t2.新用户注册\n") print("\t3.退出系统\n") print("~ *"*13) input("(温馨提示)请输入您的选项：") """ """ print("\t英雄联盟商城首页\n") print("~ *"*13) pri

python爬虫翻页_python爬虫网页，为啥始终无法爬出翻页的内容?

weixin_39703551的博客

11-24

697

爬出来始终是第一页的内容import requestsfrom requests.exceptions import RequestExceptionfrom pyquery import PyQuery as pqimport reimport simplejson as jsondef get_one_page(url):try:response=requests.get(url)if re...

python 实现浏览器需要的页面返回

zhujuntangxiaojuan的博客

09-01

1026

import socket import re index_path = r"F:\python爬虫\1-6课件\Python高级-全部（html版）\07day\07day\index.html" def service_client(new_socket): """为这个客户端服务""" # 接受浏览器的请求 request = new_socket.recv(1...

python前端控制爬虫停止_【Python Scrapy 爬虫框架】 6、继续爬虫、终止和重启任务...

weixin_39545102的博客

12-10

403

0x00 前言有时候我们不想只爬一个页面的，比如之前我只爬了主页，但是现在想把其他页面的也爬下来，这就是本文的任务。0x01 修改代码在之前的基础上，修改 teamssix_blog_spider.py 文件，首先添加 start_urlsstart_urls = ['https://www.teamssix.com','https://www.teamssix.com/page/2/','htt...

网页出现重复（双份）的可能原因之一：chain.doFilter(request, response);重复调用；

Phoenix_smf的博客

03-21

4900

这是原来的网页。因为先要加个过滤器从而控制用户对于网站服务器的访问，以保证服务器的安全，即用户只能访问指定的网页下面是MyFilter类的具体代码：public class MyFilter implements Filter{ private FilterConfig filterConfig; //需要定义系统页面访问中可放行的连接 private List

Python网络爬虫与信息提取(三)：网络爬虫之实战

riba2534的博客

04-02

2394

此系列笔记来源于中国大学MOOC-北京理工大学-嵩天老师的Python系列课程转载自：http://www.jianshu.com/p/98d0139dacac 7. Re(正则表达式)库入门 regular expression = regex = RE 是一种通用的字符串表达框架,用来简洁表达一组字符串的表达式,也可用来判断某字符串的特征归属正则表达式

『scrapy爬虫』03. 爬取多个页面（详细注释步骤）