一、爬虫必备基础知识
scrapy是一个为了爬取网站数据,提高结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存贮历史数据等一系列的程序中。
1、技术选型:scrapy vs requests+beautifulsoup
1、requests和beautifulsoup都是库,scrapy是框架
2、scrapy框架中可以加入requests和beautifulsoup
3、scrapy基于twisted,性能是最大的优势
4、scrapy方便扩展,提供了很多内置的功能
5、scrapy内置的css和xpath selector非常方便,beausoup最大的缺点就是慢
2、网页分类
常见类型的服务
1、静态网页
2、动态网页(刷新局部 阿贾克斯加载)
3、webservice(restapi)
3、爬虫能做什么
爬虫作用
1、搜索引擎——百度、Google、垂直领域搜索引擎
2、推荐引擎——今日头条
3、机器学习的数据样本
4、数据分析(如金融数据分析)、舆情分析等
深度优先和广度优先
1、深度:ABDEICFGH(递归实现 一条路走到底,到尽头后返回上一个结点,再走另一条路)
2、广度:ABCDEFGHI(队列:先进先出)
4、字符串编码
二、虚拟环境(按功能隔离环境)
(徽标+R打开cmd)
1、利用pip,安装virtualenv
pip install virtualenv
2、继续安装virtualenvwrapper(是用来管理virtualenv的扩展包,方便虚拟环境管理)
pip install virtualenvwrapper-win
3、新建文件夹envs统一存放虚拟环境,配置环境变量
4、workon(可以看到所有的虚拟环境)
可能会出现的报错:‘workon’不是内部或外部命令,也不是可以运行的程序或批处理文件。
此时需要查看的是之前安装的是irtualenvwrapper-win 还是irtualenvwrapper。windows下一定要加-win。重新安装virtualenvwrapper-win 后即可正常运行。
5、基本使用(增删查)
①创建虚拟环境:
mkvirtualenv env_name
②查看所有虚拟环境
lsvirtualenv env_name
③进入虚拟环境
workon env_name
④退出虚拟环境
deactivate
⑤删除虚拟环境
rmvirtualenv env_name
三、创建一个爬虫虚拟环境的完整过程
1、创建虚拟环境(mkvirtualenv),并查看其下有什么包(pip list)
2、在虚拟环境test下安装scrapy
3、在对应工程目录下创建工程
scrapy startproject 工程名
4、进入工程,创建第一个爬虫
scrapy genspider 爬虫名 要爬的网站url
5、Pycharm打开工程,setting修改解释器为刚刚配置的虚拟环境
有帮助的话点个赞再走吧~