2021SC@SDUSC
ECommerceCrawlers之Scrapy详解(一)
文章目录
一、Scrapy框架简介
Scrapy的github主页介绍:
Scrapy 是一个快速的高级网络爬虫框架,用于抓取网站并从其页面中提取结构化数据。它可用于多种用途,比如数据挖掘监测和自动化测试。
二、Scrapy环境配置
1.安装python
这里建议安装python3.6-3.8之间的版本,因为最新的python版本可能会出现库不支持的情况。
2.pip install scrapy
命令行中输入
pip install scrapy
以安装scrapy
3.scrapy startproject xxxxxxxxx
命令行中输入
scrapy startproject xxxxxxxxx(你的scrapy项目名)
其中xxxxxxxxx为scrapy项目名,回车后可以创建一个Scrapy项目
三、Scrapy项目结构
xxxxxxxxx(你的scrapy项目名)/
scrapy.cfg # 部署配置文件
tutorial/ # 项目的 Python 模块,你将从这里导入你的代码
__init__.py
items.py #item定义文件(用于定义要爬取的数据的属性,其形式有点类似于JavaBean)
middlewares.py # 项目中间件文件
pipelines.py # 项目pipeline文件
settings.py # 项目设置文件
spiders/ # 爬虫代码文件夹,里边是你自己编写的各种爬虫的代码
__init__.py