描述:
安装爬虫框架Scrapy、基本使用、知识点总结。
目录
🏆一、Scrapy安装
⭐️1.1、scrapy是什么
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
⭐️1.2、安装环境
本次安装Scrapy的版本信息
- Python版本 3.6.1 ---->(升级) Python 3.8.9
- Pip版本 21.3.1 ---->(降级) Pip 20.2.3
# 一、安装环境 # http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted # 下载twisted对应版本的whl文件(如我的Twisted‐17.5.0‐cp36‐cp36m‐win_amd64.whl),cp后面是python版本,amd64操作系统版本代表64位, # 打开cmd运行命令: # pip install C:\Users\...\Twisted‐17.5.0‐cp36‐cp36m‐win_amd64.whl # 再次执行pip install scrapy -i https://pypi.douban.com/simple # 根据日志信息进行报错解决 # 1、如果报错 # python ‐m pip install ‐‐upgrade pip # 2、如果报错 win32 # pip install pypiwin32 # 如果以上方式解决不了问题 # 安装使用anaconda
⭐️1.3、步骤安装
特喵的,卸载所有包
安装之前检查Python版本和pip版本,Python版本(3.6.1)与pip版本(21.3.1)不匹配是会影响到后续Scrapy的安装的。
网址访问:http://www.lfd.uci.edu/~gohlke/pythonlibs,Ctrl+F定位twisted。
根据Python版本和操作系统位数选择合适的版本
Python版本
系统位数win64
cp后面是python版本,amd64操作系统版本代表64位
下载之后将文件复制到桌面
打开cmd输入命令pip install 将Twisted-20.3.0-cp38-cp38-win_amd64.whl桌面文件直接复制到cmd窗口中,回车等待。注意cmd的文件路径
然后会有一个黄色日志提示
应该升级pip命令
- 降级命令 python -m pip install pip==9.0.3
- 升级命令python -m pip install --upgrade pip
升级成功之后
然后执行pip install scrapy -i https://pypi.douban.com/simple命令
安装成功
如果还是不行,可以安装下anaconda,参考博客戳
⭐️1.4、测试是否安装成功
新建一个爬虫文件夹,在文件夹下打开盘符中框输入cmd,在命令中输入scrapy,若显示如下图所示,则说明成功安装爬虫框架
出现这个问题的原因是因为之前的Python版本(3.6.1)与pip版本(21.2.3)不匹配。
解决方案
查看当前版本:在刚刚打开的命令框内输入scrapy version,如下图显示:
⭐️1.4、第三方库
安装Scrapy框架的第三库
安装lxml库
pip install lxml -i https://pypi.douban.com/simple
安装jsonpath库
pip install jsonpath -i https://pypi.douban.com/simple
安装BeautifulSoup/bs4库
pip install bs4 -i https://pypi.douban.com/simple
安装selenium库
pip install selenium -i https://pypi.douban.com/simple
安装requests库
pip install requests -i https://pypi.douban.com/simple