scrapy框架(1):virtualenv+scrapy 基础操作

一、爬虫必备基础知识

scrapy是一个为了爬取网站数据,提高结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存贮历史数据等一系列的程序中。

1、技术选型:scrapy vs requests+beautifulsoup

1、requests和beautifulsoup都是库,scrapy是框架
2、scrapy框架中可以加入requests和beautifulsoup
3、scrapy基于twisted,性能是最大的优势
4、scrapy方便扩展,提供了很多内置的功能
5、scrapy内置的css和xpath selector非常方便,beausoup最大的缺点就是慢

2、网页分类

常见类型的服务

1、静态网页
2、动态网页(刷新局部 阿贾克斯加载)
3、webservice(restapi)

3、爬虫能做什么

爬虫作用

1、搜索引擎——百度、Google、垂直领域搜索引擎
2、推荐引擎——今日头条
3、机器学习的数据样本
4、数据分析(如金融数据分析)、舆情分析等

深度优先和广度优先

在这里插入图片描述

1、深度:ABDEICFGH(递归实现 一条路走到底,到尽头后返回上一个结点,再走另一条路)
2、广度:ABCDEFGHI(队列:先进先出)

4、字符串编码

在这里插入图片描述
在这里插入图片描述

二、虚拟环境(按功能隔离环境)

(徽标+R打开cmd)

1、利用pip,安装virtualenv

pip install virtualenv

2、继续安装virtualenvwrapper(是用来管理virtualenv的扩展包,方便虚拟环境管理)

pip install virtualenvwrapper-win 

3、新建文件夹envs统一存放虚拟环境,配置环境变量

在这里插入图片描述

4、workon(可以看到所有的虚拟环境)

可能会出现的报错:‘workon’不是内部或外部命令,也不是可以运行的程序或批处理文件。
此时需要查看的是之前安装的是irtualenvwrapper-win 还是irtualenvwrapper。windows下一定要加-win。重新安装virtualenvwrapper-win 后即可正常运行。
在这里插入图片描述

5、基本使用(增删查)

①创建虚拟环境:

mkvirtualenv env_name

②查看所有虚拟环境

lsvirtualenv env_name

③进入虚拟环境

workon env_name

④退出虚拟环境

deactivate

⑤删除虚拟环境

rmvirtualenv env_name

三、创建一个爬虫虚拟环境的完整过程

1、创建虚拟环境(mkvirtualenv),并查看其下有什么包(pip list)

在这里插入图片描述

2、在虚拟环境test下安装scrapy

在这里插入图片描述
在这里插入图片描述

3、在对应工程目录下创建工程

scrapy startproject 工程名

在这里插入图片描述

4、进入工程,创建第一个爬虫

scrapy genspider 爬虫名 要爬的网站url

在这里插入图片描述

5、Pycharm打开工程,setting修改解释器为刚刚配置的虚拟环境

在这里插入图片描述

在这里插入图片描述
有帮助的话点个赞再走吧~

  • 14
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值