Scrapy基本操作流程

最新推荐文章于 2023-05-08 09:48:05 发布

只想安静的一个人

最新推荐文章于 2023-05-08 09:48:05 发布

阅读量1.2k

点赞数

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/u014258362/article/details/80676010

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

###一、创建项目
scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider ‘name’ ‘http://url’ 创建spider文件
####文件详解

爬虫配置文件 settings.py

BOT_NAME 命名爬虫的名称执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

ROBOTSTXT_OBEY 是否遵守robots协议一般选择False

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY表示对同一个站点抓取延迟

DOWNLOAD_DELAY = 1 表示1秒抓取一次

CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取

CONCURRENT_REQUESTS_PER_DOMAIN= 1

CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线

爬虫数据类型文件 items.py

定义需要爬取内容的数据格式

爬虫储存文件 pipelines.py

执行保存数据的操作，将Item的数据保存
需要在settings.py中pipelines的使用

###二、创建爬虫程序
在项目目录下spiders文件夹中创建爬虫

import scrapy  #导入爬虫依赖库
class mySpider(scarpy.Spider):
      name='spider' #爬虫名称，当此名称与settings的BOT_NAME相同时执行此爬虫
      start_urls=['http://www.baidu.com']#起始url地址



###三、启动爬虫
scrapy crawl  爬虫名称

只想安静的一个人

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy基本操作流程

一、创建项目scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名) 命令行切换到scrapy工程目录 scrapy genspider ‘name’ ‘http://url’ 创建spider文件文件详解爬虫配置文件 settings.pyBOT_NAME 命名爬虫的名称执行爬虫的时候使用此名字 ...
复制链接

扫一扫

专栏目录