16-爬虫之scrapy框架手动请求发送实现全站数据爬取03

scrapy的手动请求发送实现全站数据爬取

  • yield scrapy.Reques(url,callback) 发起的get请求
    • callback指定解析函数用于解析数据
  • yield scrapy.FormRequest(url,callback,formdata)发起的post请求
    • formdata:字典,请求参数
  • 为什么start_urls列表中的url会被自动进行get请求的发送?
    • 因为列表中的url其实是被start_requests这个父类方法实现的get请求
# 父类方法:这个是该方法的原始实现
def start_requests(self):
    for u in self.start_urls:
        yield scrapy.Request(url=url,callback=self.parse)
  • 如何将start_urls中的url默认进行post请求发送?
# 重写父类方法默认进行post请求发送
def start_requests(self):
    for u in self.start_urls:
        yield scrapy.FormRequest(url=url,callback=self.parse)

开始

创建一个爬虫工程:scrapy startproject proName
进入工程目录创建爬虫源文件:scrapy genspider spiderName www.xxx.com
执行工程:scrapy crawl spiderName
在这里插入图片描述

配置pipelines.py文件

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class GpcPipeline:
    def process_item(self
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值