scrapy 框架学习

scrapy 框架学习 – 基础入门

Scrapy 是用 Python 实现的 ,为了抓取网站,数据解析,持久化而编写的应用框架。

安装

windows:

pip install scrapy

Ubuntu:

  1. 安装依赖项
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
  1. 安装scrapy
sudo pip install scrapy

使用步骤

  1. 创建工程
scrapy startproject ProName
  1. 进入工程目录
cd ProName
  1. 创建爬虫文件
scrapy genspider spiderName www.xxx.com
  1. 编写爬虫代码
  2. 执行工程
scrapy crawl spiderName

代码示例

首先,创建工程 scrapy startproject scrapyTest
在这里插入图片描述工程创建成功后,会有两个命令提示,一个是进入工程目录,一个是创建爬虫文件。

查看创建的工程目录结构:
在这里插入图片描述
详细的工程目录结构:
在这里插入图片描述
具体生产文件的作用说明,网上有很多,就不多说了,需要注意的
用到的配置项,大都在 settings.py 里

#修改settings.py
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# UA 伪装设置(根据自己使用的浏览器,或上网随便找一个)
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0’

# Log level: 不配置此项,会打印日志信息。配置后,只会显示正常的打印信息及错误信息
# ERROR : only print error log
LOG_LEVEL = ‘ERROR’

# Obey robots.txt rules
# 学习阶段,暂时可以不考虑遵守网站的robots协议
ROBOTSTXT_OBEY = False

其次,创建爬虫文件
在这里插入图片描述
在这里插入图片描述

指令中的URL,可以在生产的代码中修改
在这里插入图片描述具体的解析代码,可以写在此文件的 parse 中。
代码写好后,可以通过 scrapy crawl spiderTest 来运行代码。
以上,就是scrapy 框架的基础用法,很方便。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值