scrapy 框架学习

最新推荐文章于 2024-09-28 22:01:56 发布

午后阳光送给你

最新推荐文章于 2024-09-28 22:01:56 发布

阅读量257

点赞数

分类专栏： python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25022577/article/details/118075158

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

scrapy 框架学习 – 基础入门

Scrapy 是用 Python 实现的，为了抓取网站，数据解析，持久化而编写的应用框架。

安装

windows：

pip install scrapy

Ubuntu:

安装依赖项

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

安装scrapy

sudo pip install scrapy

使用步骤

创建工程

scrapy startproject ProName

进入工程目录

cd ProName

创建爬虫文件

scrapy genspider spiderName www.xxx.com

编写爬虫代码
执行工程

scrapy crawl spiderName

代码示例

首先，创建工程 scrapy startproject scrapyTest
在这里插入图片描述工程创建成功后，会有两个命令提示，一个是进入工程目录，一个是创建爬虫文件。

查看创建的工程目录结构：
在这里插入图片描述
详细的工程目录结构：

具体生产文件的作用说明，网上有很多，就不多说了，需要注意的
用到的配置项，大都在 settings.py 里

#修改settings.py
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# UA 伪装设置（根据自己使用的浏览器，或上网随便找一个）
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0’

# Log level: 不配置此项，会打印日志信息。配置后，只会显示正常的打印信息及错误信息
# ERROR : only print error log
LOG_LEVEL = ‘ERROR’

# Obey robots.txt rules
# 学习阶段，暂时可以不考虑遵守网站的robots协议
ROBOTSTXT_OBEY = False

其次，创建爬虫文件
在这里插入图片描述

指令中的URL，可以在生产的代码中修改
在这里插入图片描述具体的解析代码，可以写在此文件的 parse 中。
代码写好后，可以通过 scrapy crawl spiderTest 来运行代码。
以上，就是scrapy 框架的基础用法，很方便。

午后阳光送给你

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。