scrapy 框架学习 – 基础入门
Scrapy 是用 Python 实现的 ,为了抓取网站,数据解析,持久化而编写的应用框架。
安装
windows:
pip install scrapy
Ubuntu:
- 安装依赖项
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
- 安装scrapy
sudo pip install scrapy
使用步骤
- 创建工程
scrapy startproject ProName
- 进入工程目录
cd ProName
- 创建爬虫文件
scrapy genspider spiderName www.xxx.com
- 编写爬虫代码
- 执行工程
scrapy crawl spiderName
代码示例
首先,创建工程 scrapy startproject scrapyTest
工程创建成功后,会有两个命令提示,一个是进入工程目录,一个是创建爬虫文件。
查看创建的工程目录结构:
详细的工程目录结构:
具体生产文件的作用说明,网上有很多,就不多说了,需要注意的
用到的配置项,大都在 settings.py 里
#修改settings.py
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# UA 伪装设置(根据自己使用的浏览器,或上网随便找一个)
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0’
# Log level: 不配置此项,会打印日志信息。配置后,只会显示正常的打印信息及错误信息
# ERROR : only print error log
LOG_LEVEL = ‘ERROR’
# Obey robots.txt rules
# 学习阶段,暂时可以不考虑遵守网站的robots协议
ROBOTSTXT_OBEY = False
其次,创建爬虫文件
指令中的URL,可以在生产的代码中修改
具体的解析代码,可以写在此文件的 parse 中。
代码写好后,可以通过 scrapy crawl spiderTest 来运行代码。
以上,就是scrapy 框架的基础用法,很方便。