06_Scrapy爬虫框架

疋瓞

已于 2023-06-13 10:18:40 修改

阅读量2.3k

点赞数

分类专栏： python爬虫文章标签： scrapy 爬虫 python

于 2023-06-12 16:25:46 首次发布

本文链接：https://blog.csdn.net/sz1125218970/article/details/131156947

版权

下载Scrapy的过程中报错了，之前我的pip是换过的源的，今天没办法又给conda换了源头，也搞清楚了一个用pip指令下载用的是pip的源，用conda指令下载使用的是Anaconda的源。最终今天是通过conda install scrapy下载的scrapy。
其实换源的目的是为了下载方便一些，如果你不嫌麻烦，可以记下几个常用的源（清华、百度），然后不论是使用pip还是使用conda的时候，都指定一下源，就可以下载了。
带指定源下载的pip指令（以清华源为）：pip install package_name -i https://pypi.tuna.tsinghua.edu.cn/simple
conda指令（以清华源为）：conda install package_name pip -i https://pypi.tuna.tsinghua.edu.cn/simple
注意conda指令是在Anaconda prompt中运行的，pip在cmd和Anaconda prompt中都可以运行。

注意：框架的目的是解放生产力，把重复性工作变简单。
Scrapy是一个基于Python开发的爬虫框架，用于从网站中爬取结构化数据，该框架提供了非常多爬虫相关的基础组件，架构清晰，可拓展性强，基于Scrapy，我们可以灵活高效的完成各种爬虫需求。

在pycharm的terminal窗口下，使用命令：scrapy startproject 项目名创建Scrapy爬虫项目，项目名命名规则遵循变量命名方法，这条指令执行后，就会自动在pycharm中创建一个Scrapy框架，前提是已经在对应环境中装了scrapy。
创建python爬虫文件
了解创建项目中的各个部分
测试执行爬虫：注意有了框架，运行爬虫就需要在终端中用指令：scrapy crawl 爬虫文件名，执行。且每次执行完爬虫都会自动关闭。

关注