Scrapy框架——安装Scrapy

7 篇文章 2 订阅
2 篇文章 0 订阅

Scrapy框架—— 安装Scrapy

   Scrapy 可以说是爬虫界鼎鼎有名的框架。 它是一个重型的爬虫框架,结合数据抓取,导出,以及部分的数据清洗的功能。

本文针在python3.6的环境下来安装scrapy

需求配置

  • sqlite依赖库(centos下为sqlite-devel包)

   scrapy 框架的正常运行,你的 python3.6 版本需要编译支持 sqlite ,

  • python3.6

  • Twisted

   scrapy 的异步功能实现,需要 Twisted 的支持。 目前 scrapy 的最新版本需要 Twisted>13.0 版本, 而 pip3.6 , 所以我们需要从源码编译。

安装sqlite依赖库

   如果你的 python3.6 已经编译支持了 sqlite ,可以跳过这个步骤。

  1. 下载sqlite库

    yum install sqlite-devel

编译python3.6

  1. 下载python3.6源码

    cd /tmp
    curl -O Python-3.6.4.tgz  https://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz
  2. 编译python3.6

    tar xvvf Python-3.6.4
    cd  Python-3.6.4
    ./configure
    make && make install

编译Twisted

  1. 下载Twisted源码

    cd /tmp
    git clone https://github.com/twisted/twisted.git
  2. 编译Twisted

    cd twisted/
    python3.6 setup.py install

安装Scrapy

pip3 install scrapy

测试Scrapy是否正常工作

   这里我们简单的抓一下京东首页的分类列表来测试一下 scrapy 是否正常工作。

scrapy genspider example www.jd.com //该命令会在当前目录下生成一个example.py文件
//example.py
import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['www.jd.com']
    start_urls = ['http://www.jd.com/']

    def parse(self, response):
    category = response.xpath('//div[contains(@class,"navitems")]/ul/li/a/text()').extract();
    for cate in category:
        yield {'cate': cate}
    pass
scrapy runspider example.py -L INFO -o category.json 
//该命令会运行example.py爬虫脚本,然后将抓取结果保存到category.json
//category.json
[
{"cate": "\u79d2\u6740"},
{"cate": "\u4f18\u60e0\u5238"},
{"cate": "PLUS\u4f1a\u5458"},
{"cate": "\u95ea\u8d2d"},
{"cate": "\u62cd\u5356"},
{"cate": "\u4eac\u4e1c\u670d\u9970"},
{"cate": "\u4eac\u4e1c\u8d85\u5e02"},
{"cate": "\u751f\u9c9c"},
{"cate": "\u5168\u7403\u8d2d"},
{"cate": "\u4eac\u4e1c\u91d1\u878d"}
]
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
下载完Scrapy框架后,可以按照以下步骤进行安装和配置: 1. 首先,您可以访问Scrapy官方网站(https://docs.scrapy.org/en/latest/index.html)或中文文档(https://www.osgeo.cn/scrapy/intro/tutorial.html)获取最新版本的Scrapy框架安装包。 2. 在您的Python环境中安装Scrapy包。您可以使用以下命令来安装Scrapy: ``` pip install scrapy ``` 3. 安装完成后,您可以通过运行以下命令来验证Scrapy是否成功安装: ``` scrapy version ``` 4. 接下来,您可以创建一个新的Scrapy项目。使用以下命令在您的工作目录中创建一个新的Scrapy项目: ``` scrapy startproject project_name ``` 5. 进入新创建的项目目录: ``` cd project_name ``` 6. 在项目目录中,您可以定义和配置爬虫。通过以下命令创建一个新的爬虫: ``` scrapy genspider spider_name website_url ``` 7. 在生成的爬虫文件中,您可以定义爬取的网址、数据提取规则和数据处理方式。 8. 最后,您可以使用以下命令启动Scrapy爬虫: ``` scrapy crawl spider_name ``` 通过按照上述步骤进行安装和配置,您可以成功下载完Scrapy框架并开始使用它进行网页抓取任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬虫Scrapy框架系列(1)——初识Scrapy框架安装+简介+运行流程+组件介绍】](https://blog.csdn.net/qq_44907926/article/details/118487385)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值