scrapy (四)基本配置

scrapy使用细节配置

一、建立项目

1scrapy startproject 项目名字

2、进入项目:

  scrapy genspider 名字 不带http的根网址

3、默认模板(或改变模板)

默认模板:class HuaSpider(scrapy.Spider)

改变模板scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

4、目录结构

wps56D1.tmp 

 

二、setting基本设置

1、log日志输出的级别:

      INFOERROR......

      LOG_LEVEL = 'ERROR'

2、将log写到文件中(自动创建log.txt

        LOG_FILE = './log.txt'

3robots

       是否遵守各大网站的爬虫规则(robots),默认是True,为了得到我们想要的数据,设置ROBOTSTXT_OBEYF     alse: ROBOTSTXT_OBEY = False

       查看各大网站的规则:根网址+/robots.txt,例如https://www.baidu.com/robots.txt

4、设置代理middlewares.py

下载中间件设置:

    1) setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

   'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

    2)middlewares.py中添加代理

class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式:request.meta['proxy'] ='http://ip:port'

私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'

 

wps56D2.tmp 

 

3)回到setting,解开下载中间件DOWNLOADER_MIDDLEWARES

 

wps56D3.tmp 

 

 

欢迎关注小婷儿的博客:

csdnhttps://blog.csdn.net/u010986753

博客园:http://www.cnblogs.com/xxtalhr/

 

有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ 87605025

 

OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

 

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

 

 

    wps56D4.tmp    wps56D5.tmp

 

Scrapy是一个基于Python的开源网络爬虫框架,用于快速、高效地抓取网站数据。下面是Scrapy基本使用步骤: 1. 安装Scrapy:在命令行中运行`pip install Scrapy`来安装Scrapy库。 2. 创建Scrapy项目:在命令行中使用`scrapy startproject project_name`来创建一个新的Scrapy项目。这将在当前目录下创建一个名为`project_name`的文件夹,并生成项目的基本结构。 3. 定义Item:在项目中的`items.py`文件中定义要抓取的数据结构,即Item。Item是一个类似于字典的容器,用于存储从网页中提取的数据。 4. 编写Spider:在项目中的`spiders`文件夹中创建一个Spider,用于定义如何抓取网页和提取数据。Spider是一个类,需要继承自`scrapy.Spider`,并定义一些属性和方法,如`name`(Spider的名称)、`start_urls`(要抓取的起始URL)、`parse`(解析响应的方法)等。 5. 解析响应:在Spider中编写解析响应的方法,通常命名为`parse`。在这个方法中,可以使用XPath、CSS选择器等方式来提取所需的数据,并将其存储到Item对象中。 6. 存储数据:可以选择将提取到的数据存储到文件、数据库或其他目标中。Scrapy提供了多种存储方式,如使用自带的Feed Exporter将数据导出为JSON、CSV等格式,或者编写自定义的Pipeline来处理数据存储逻辑。 7. 运行爬虫:在命令行中使用`scrapy crawl spider_name`来运行爬虫。`spider_name`是Spider的名称,需要与Spider类中的`name`属性一致。 以上是Scrapy基本使用步骤。通过配置Spider和Pipeline,可以实现更复杂的爬取和数据处理功能。可以参考Scrapy官方文档和示例代码来进一步学习和掌握Scrapy的使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值