1、环境
uname -a
Linux answer 5.4.0-90-generic #101~18.04.1-Ubuntu SMP Fri Oct 22 09:25:04 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
2、安装步骤
前置环境:
1、安装python
2、安装pip
sudo apt install python3-pip
3、命令安装
3.1、验证本机是否已经安装了lxml
sudo pip install lxml
出现:
Requirement already satisfied: lxml in /home/yym/.local/lib/python2.7/site-packages
已经有了!
3.2、验证是否安装了openssl,这个比较简单,直接在终端下输入openssl直接进入OPENSSL表明已经安装
$ openssl
OpenSSL> q
$
3.3、安装
sudo apt install python-scrapy
查看是否成功:输入:$ scrapy
出现:
4、使用:
使用scrapy抓取一个网站一共需要以下4个步骤:
1、创建一个scrapy项目
2、定义Item容器
3、编写爬虫
4、存储内容。
4.1 创建项目
scrapy startproject tutorial
项目的配置文件:scrapy.cfg
tutorial : 模块中的代码
items:容器
settings:一些设置文件
4.2 定义item容器
保存爬取到的数据的容器,和字典类似,并且提供了保护机制来避免拼写错误导致未定义子段的错误。
对需要获取的数据建模:
在 items.py 文件中
名字 = 占位符
4.3 编写爬虫
编写爬虫类Spider,用于从网站上爬取数据的类。
包含一个用于下载初始URL, 如何跟进网页中的链接,如何分析页面的内容,提取生成item的方法。