ubuntu安装pip3、Scrapy框架(爬虫)并使用

1、环境

参考安装链接
参考使用链接

uname -a

Linux answer 5.4.0-90-generic #101~18.04.1-Ubuntu SMP Fri Oct 22 09:25:04 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

2、安装步骤

前置环境:
1、安装python
2、安装pip

sudo apt install python3-pip

3、命令安装

3.1、验证本机是否已经安装了lxml

sudo pip install lxml
出现:
Requirement already satisfied: lxml in /home/yym/.local/lib/python2.7/site-packages
已经有了!

3.2、验证是否安装了openssl,这个比较简单,直接在终端下输入openssl直接进入OPENSSL表明已经安装

$ openssl
OpenSSL> q
$

3.3、安装


sudo apt install python-scrapy

查看是否成功:输入:$ scrapy
出现:
在这里插入图片描述

4、使用:

使用scrapy抓取一个网站一共需要以下4个步骤:
1、创建一个scrapy项目
2、定义Item容器
3、编写爬虫
4、存储内容。
在这里插入图片描述

4.1 创建项目

scrapy startproject tutorial

在这里插入图片描述
项目的配置文件:scrapy.cfg
tutorial : 模块中的代码
items:容器

settings:一些设置文件

4.2 定义item容器

保存爬取到的数据的容器,和字典类似,并且提供了保护机制来避免拼写错误导致未定义子段的错误。

对需要获取的数据建模:
在 items.py 文件中

名字 = 占位符

4.3 编写爬虫

编写爬虫类Spider,用于从网站上爬取数据的类。
包含一个用于下载初始URL, 如何跟进网页中的链接,如何分析页面的内容,提取生成item的方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值