ubuntu安装pip3、Scrapy框架（爬虫）并使用

最新推荐文章于 2024-04-24 10:00:42 发布

answer_yym

最新推荐文章于 2024-04-24 10:00:42 发布

阅读量1.5k

点赞数

分类专栏：集群 c++基础知识-硬件基础 linux基础知识文章标签： leetcode 哈希算法算法

本文链接：https://blog.csdn.net/Tlwhisper/article/details/121406917

版权

27 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1、环境

uname -a

Linux answer 5.4.0-90-generic #101~18.04.1-Ubuntu SMP Fri Oct 22 09:25:04 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

前置环境：
1、安装python
2、安装pip

sudo apt install python3-pip

3.1、验证本机是否已经安装了lxml

sudo pip install lxml
出现：
Requirement already satisfied: lxml in /home/yym/.local/lib/python2.7/site-packages
已经有了！

3.2、验证是否安装了openssl，这个比较简单，直接在终端下输入openssl直接进入OPENSSL表明已经安装

$ openssl
OpenSSL> q
$

3.3、安装


sudo apt install python-scrapy

查看是否成功：输入：$ scrapy
出现：
在这里插入图片描述

使用scrapy抓取一个网站一共需要以下4个步骤：
1、创建一个scrapy项目
2、定义Item容器
3、编写爬虫
4、存储内容。
在这里插入图片描述

scrapy startproject tutorial

在这里插入图片描述
项目的配置文件：scrapy.cfg
tutorial : 模块中的代码
items:容器

settings:一些设置文件

保存爬取到的数据的容器，和字典类似，并且提供了保护机制来避免拼写错误导致未定义子段的错误。

对需要获取的数据建模：
在 items.py 文件中

名字 = 占位符

编写爬虫类Spider,用于从网站上爬取数据的类。
包含一个用于下载初始URL, 如何跟进网页中的链接，如何分析页面的内容，提取生成item的方法。

关注