人生苦短,我用 Python
本篇内容较长,各位同学可以先收藏后再看~~
在开始讲爬虫之前,还是先把环境搞搞好,工欲善其事必先利其器嘛~~~
本篇文章主要介绍 Python 爬虫所使用到的请求库和解析库,请求库用来请求目标内容,解析库用来解析请求回来的内容。Python不难学,主要是师傅带进门,加一份武功秘籍,从工具安装到项目制作,一步到位,无论你是想学习Python,爬虫在网上接项目赚外快,还是想做一个高薪工程师,必会手到擒来!系统的学习,是能更节约你的时间,学习最好的技术,为知识付费,把自己变得更有价值,你自己也才能创造更多的价值!
开发环境
首先介绍小编本地的开发环境:
- Python3.7.4
- win10
差不多就这些,最基础的环境,其他环境需要我们一个一个安装,现在开始。
请求库
虽然 Python 为我们内置了 HTTP 请求库 urllib ,使用姿势并不是很优雅,但是很多第三方的提供的 HTTP 库确实更加的简洁优雅,我们下面开始。
Requests
Requests 类库是一个第三方提供的用于发送 HTTP 同步请求的类库,相比较 Python 自带的 urllib 类库更加的方便和简洁。
Python 为我们提供了包管理工具 pip ,使用 pip 安装将会非常的方便,安装命令如下:
pip install requests
验证:
C:\Users\inwsy>python
Python 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 20:34:20) [MSC v.1916 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
首先在 CMD 命令行中输入 python ,进入 python 的命令行模式,然后输入 import requests
如果没有任何错误提示,说明我们已经成功安装 Requests
类库。
Selenium
Selenium 现在更多的是用来做自动化测试工具,相关的书籍也不少,同时,我们也可以使用它来做爬虫工具,毕竟是自动化测试么,利用它我们可以让浏览器执行我们想要的动作,比如点击某个按钮、滚动滑轮之类的操作,这对我们模拟真实用户操作是非常方便的。
安装命令如下:
pip install selenium
验证:
C:\Users\inwsy>python
Python 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 20:34:20) [MSC v.1916 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import selenium
这样没报错我们就安装完成,但是你以为这样就算好了么?图样图森破啊。
ChromeDriver
我们还需要浏览器的支持来配合 selenium
的工作,开发人员嘛,常用的浏览器莫非那么几种:Chrome、Firefo