爬虫教程

本文介绍了使用Scrapy框架创建和运行爬虫的步骤。首先,通过`scrapy startproject`新建项目,然后使用`scrapy genspider`创建爬虫文件,并指定目标网站。接着运行爬虫文件`scrapy crawl`。在Pipeline.py中处理数据,如清洗、去重和存储。爬虫的`start_requests`方法用于生成初始请求,`parse`方法解析响应并提取Item,而Pipeline的`process_item`方法处理这些Item。
摘要由CSDN通过智能技术生成

1.新建项目:scrapy startproject xxx项目名,例如:

scrapy startproject new_project

2、 创建爬虫文件

name:为文件的名字,

在spiders文件下运行 :scrapy genspider -t crawl name 'xxxx.com'       

3、运行爬虫文件

 scrapy crawl name   

2、Pipeline.py 文件

  • 对应 pipelines 文件
  • 爬虫提取出数据存入 item 后,item 中保存的数据需要进一步处理,比如清洗,去重,存储等
  • Pipeline 需要处理 process_item 函数
  • process_item
    • spider 提取出来的 item 作为参数传入,同时传入的还有 spider
    • 此方法必须实现
    • 必须返回一个 Item 对象,被丢弃的 item 不会被之后的 pipeline
  • _ init _:构造函数
    • 进行一些必要的参数初始化
  • open_spider(spider):
    • spider 对象对开启的时候调用
  • close_spider(spider):
    • 当 spider 对象被关闭的时候调用
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值