爬虫框架Scrapy的安装与简介

最新推荐文章于 2021-03-23 18:47:25 发布

Ryan_2015

最新推荐文章于 2021-03-23 18:47:25 发布

阅读量473

点赞数

分类专栏： Python 文章标签：爬虫 python scrapy

本文链接：https://blog.csdn.net/qq_21144699/article/details/46838235

版权

2 篇文章 0 订阅

订阅专栏

一直想好好学习一下python，看了些基础教程，看到后面太枯燥，学习起来比较盲目，想着找些项目来边练手边联系，在知乎看到很多同学都在用python写网络爬虫，个人觉得比较有意思，于是从scrapy开始着手。

至于什么是scapy，我也还在学习中，可以看看官方手册：http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html。

下面把我安装scrapy的过程做个小结：

scrapy的安装需要依赖下面的package，简单总结并附上地址（下载时请注意python对应版本）：

package	address
lxml	https://pypi.python.org/pypi/lxml/3.4.4
zope.interface	https://pypi.python.org/pypi/zope.interface/4.1.2
Twisted	https://pypi.python.org/pypi/Twisted/15.2.1
pyOpenSSL	https://pypi.python.org/pypi/pyOpenSSL/0.15.1
pywin32	http://sourceforge.net/projects/pywin32/?source=typ_redirect
Scrapy	http://scrapy.org/

当然也可以直接执行pip install Scrapy命令去安装，系统会自动下载依赖包，但我在安装过程中出现了一些问题。直接安装行不通的话建议可以手动下载安装。

进入打算存储代码的目录，执行：

scrapy startproject test

命令执行完后会在当前目录下创建如下内容：

test/
    scrapy.cfg
    test/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

这些文件分别表示：

scrapy.cfg	项目的配置文件
test/	该项目的python模块
test/items.py	项目中的item文件，用于保存爬取到的数据
test/pipelines.py	项目中的pipelines文件
test/setting.py	项目的设置文件
test/spiders/	放置spider代码的目录，spider是用户编写用于网站爬取数据的类