爬虫---scrapy

本文介绍了如何在Ubuntu上安装Scrapy,包括安装依赖库和Scrapy框架。接着,详细阐述了Scrapy的基本流程,如创建项目、生成爬虫、运行爬虫等,并提到了如何自定义爬虫程序、定义items、设置settings以及创建pipelines。此外,还讲解了创建规则爬虫的方法,使用LinkExtractor设置爬取规则。
摘要由CSDN通过智能技术生成
scrapy

ubuntu安装:

  • python3安装依赖库:sudo apt-get install python3 python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
  • 通过pip 安装 Scrapy 框架命令:sudo pip3 install scrapy
基本流程:
  1. startproject 创建一个新工程–scrapy startproject MySpider
  2. 进入项目目录 cd MySpider
  3. 在当前项目里创建爬虫: scrapy genspider atguigu ‘www.atguigu.com’
  4. 运行爬虫: scrapy crawl name

scrapy项目:自定义爬虫程序

  • 需要引入item字段:from 项目名.items import 项目Item
  • name:与爬虫程序相同
  • allowed_domains : 定义爬取的域名(可以省略或者写多个)
  • start_urls 爬取的起始网址
  • parse_item方法中写解析数据的代码,获取数据方式text = response.xpath('//div[@class="name"]/text()').extract()[0]
  • item需要创建一个实例化对象 item = nameItem()
  • 将数据放入itemitem['title']=title
  • yirld item 将每条数据返回

scrapy项目:items<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值