Scrapy基本操作流程

###一、创建项目
scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider ‘name’ ‘http://url’ 创建spider文件
####文件详解

爬虫配置文件 settings.py

BOT_NAME 命名爬虫的名称 执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

ROBOTSTXT_OBEY 是否遵守robots协议 一般选择False

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY表示对同一个站点抓取延迟

DOWNLOAD_DELAY = 1 表示1秒抓取一次

CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取

CONCURRENT_REQUESTS_PER_DOMAIN= 1 

CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线

爬虫数据类型文件 items.py

定义需要爬取内容的数据格式

爬虫储存文件 pipelines.py

执行保存数据的操作,将Item的数据保存
需要在settings.py中pipelines的使用

###二、创建爬虫程序
在项目目录下spiders文件夹中创建爬虫

import scrapy  #导入爬虫依赖库
class mySpider(scarpy.Spider):
      name='spider' #爬虫名称,当此名称与settings的BOT_NAME相同时执行此爬虫
      start_urls=['http://www.baidu.com']#起始url地址



###三、启动爬虫
scrapy crawl  爬虫名称

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值