python爬虫获取下一页_Python Scrapy 自动抓取下一页内容

最新推荐文章于 2024-02-18 19:29:51 发布

weixin_39678525

最新推荐文章于 2024-02-18 19:29:51 发布

阅读量900

点赞数 1

文章标签： python爬虫获取下一页

Scrapy 爬虫网页抓取递归回调函数

关键词由CSDN通过智能技术生成

最近在学下Scrapy，抓取下一页的时候遇到了问题

import scrapy

from crawlAll.items import CrawlallItem

class ToutiaoEssayJokeSpider(scrapy.Spider):

name = "duanzi"

allowed_domains = ["http://duanziwang.com"]

start_urls = ['http://duanziwang.com/category/duanzi/page/1']

def parse(self, response):

for sel in response.xpath("//article[@class='excerpt excerpt-nothumbnail']"):

item = CrawlallItem()

item['Title'] = sel.xpath("//header/h2/a/text()").extract_first()

item['Text'] = sel.xpath("//p[@class='note']/text()").extract_first()

item['Views'] = sel.xpath("//p[1]/span[@class='muted'][2]/text()").extract_first()

item['Time'] = sel.xpath("//p[1]/span[@class='muted'][1]/text()").extract_first()

yield item

next_page = response.xpath("//ul/li[@class='next-page']/a/@href").extract_first()

if next_page is not None:

next_page = response.urljoin(next_page)

yield scrapy.Request(next_page, callback=self.parse)

具体代码如上，我只能抓取第一页的12条内容，第二页的连接我用print的时候也能打印出来，说明连接是获取成功了，就是：

next_page = response.urljoin(next_page)

yield scrapy.Request(next_page, callback=self.parse)

这两句代码没有回过头去调用parse，不知道为什么？请大神帮忙看看，谢谢了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39678525

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Scrapy爬虫框架实现翻页提取数据定位下一页的URL并发送Get请求

模板君MuBanJun.CN

05-22

2160

scrapy如何实现翻页请求 scrapy框架爬虫感觉最关键的就是实现翻页请求了。我们在使用requests模块的时候，想要实现翻页，就需要找到下一页的url地址，然后再次使用**requests.get()请求就可以了。那么在scrapy中，实现翻页操作，肯定首先需要找到下一页的url地址，然后构造一个关于下一页url地址的request请求传递给调度器，这里主要使用scrapy.Request()**方法发送请求，我们来看一下具体的参数: scrapy.Request(url , callbac

python爬虫获取下一页_python爬虫之scrapy 框架学习复习整理三--CrawlSpider（自动提取翻页）...

weixin_39718888的博客

11-24

778

文章目录说明：自动提取下一页：Scrapy中CrawlSpider1、再建立一个爬虫程序：2、Scrapy中CrawlSpider的几个点：①、CrawlSpider注意点：②、LinkExtractor参数③、Rule参数3、简单修改下爬虫程序scrapyd2.py1、正则匹配需要提取的地址：测试如果正则匹配为空会怎样：2、xpath匹配需求提取的地址：3、结论：4、修改parse_item5、...

参与评论您还未登录，请先登录后发表或查看评论

详解scrapy爬取赶集网简历数据实现下一页并保存至csv文件详细入门实例

xzc的博客

03-29

852

第一次写CSDN的博客闲话相信大家和我以前一样，遇到问题呢就百度，而大多数提供有效解决·方案的呢就是CSDN博客。或许呢，在过去我们的积累还不够，没水平没脸在这么高大上的博客上发布文章。还有一个原因我觉得是最普遍的，就是我们做一个事情然后不断解决问题直到成功，然后我们就不去管它了，我们已经从中吸取了足够的知识，再用博客写一遍呢白白浪费时间。无论如何，今天我还是想发布...

Scrapy中如何获取下一页链接

weixin_30517001的博客

01-22

981

Scrapy从开始链接抓取数据，然后通过下一页链接不停的抓取更多的数据。那么如何获取下一页链接呢，常见有两种方式： 1、通过当前页面的“下一页”链接获取，例如： <div class=zw_page1> 下一篇：<a href="../../JokeHtml/bxnn/2017122722221351.htm">爆逗二货,醉人的笑容你会有</a> &...

python3 爬虫，摆脱手动for循环获取网页下一页，让程序自动执行请求网页下一页。

Hakcer's Junk

01-13

2196

其中导入的包是我自己写的工具，代码中需要的库是 requets ,bs4 即可： # encoding:utf-8 from web_tools.SpiderTools.webspider_setting import * import requests headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,applicat

Python3~scrapy项目之爬取当前页和下一页

热门推荐

zbrj12345的博客

05-30

1万+

# -*- coding: utf-8 -*- import scrapy from urllib import request from Py06_2018_3_16.items import TencentItem class tencentNextPageSpider(scrapy.Spider): name = 'tencent_next_page' allowed_do...

python爬虫自动翻页_python+scrapy爬虫时如何自动翻页获取内容

weixin_39856055的博客

02-04

3392

自动翻页分为两种情况：此处所举例子有一定的时效性，请具体情况具体分析，方法类似(1)一种是像我之前爬虫新京报网的新闻，下一页的url可以通过审查元素获得，第一页的网址是http://www.bjnews.com.cn/news/list-43-page-1.html在第一页的时候，下一页按钮的审查元素是我们通过获取next_pages = response.xpath('//div[@id="pa...

wanfangSpider-master_爬虫_python_万方_scrapy_

09-30

为了方便研究者和学者快速获取所需信息，有人利用Python的Scrapy框架开发了一个名为"wanfangSpider-master"的爬虫项目。这个项目的主要目标是抓取万方数据库中特定论文的相关信息，如论文简介、关键词等，并将这些...

python爬虫实现获取下一页代码

pyjishu的博客

04-09

5211

在本篇文章里小编给大家整理了关于python爬虫实现获取下一页代码内容，需要的朋友们可以参考学习下。我们首先来看下实例代码： from time import sleep import faker import requests from lxml import etree fake = faker.Faker() base_url = "http://angelimg.spb...

scrapy_爬虫python_tailua9_python_百度图片爬虫_scrapy_

10-02

总的来说，这个项目涵盖了Python爬虫开发的关键环节：Scrapy框架的使用、百度图片的抓取策略、图片下载处理以及可能的分布式部署。通过学习和实践这样的项目，可以提升对Web爬虫和Python编程的理解，同时也能掌握...

Python学习Scrapy糗事百科利用yield实现爬取下一页内容

Python学习之旅

03-29

518

创建糗事百科项目进入虚拟环境，cd进入创建目录（这一步没写出来），创建项目，进入项目目录，创建爬虫 conda activate Scrapy scrapy startproject qsbk cd qsbk scrapy genspider qsbkzz qiushibaike.com 新建 qsbkmain.py 让我们能在pycharm运行spider from scrapy impor...

Python学习Scrapy利用crawlspider实现按照规则自动筛选下一页链接、标题链接

Python学习之旅

03-30

1109

新建爬虫项目 conda activate Scrapy scrapy startproject wxapp cd wxapp #这里要选择创建crawl类型爬虫 scrapy genspider -t crawl wxapp_spider wxapp-union.com 确认爬取内容 import scrapy class WxappItem(scrapy.Item): title...

scrapy京东翻页爬取

weixin_45026839的博客

04-26

804

获取下一页的链接如果下一页有值，就发送下一页的请求，没有就什么都不做 # 只爬取前5页 self.page += 1 if self.page > 4: return # 列表翻页 # 1. 取出下一页标签的 URL 网址不齐全 next_url ...

Scrapy爬取多级页面数据