本文来源于公众号【程序猿声】,作者向柯玮
前言
各位看客老爷们,新年好。小玮又来啦。这次给大家带来的是爬虫系列的第二课—爬虫的基本模块与简单的实战。
说到爬虫的基本模块,不知道大家之前有没有了解过呢。如果你之前没有了解过,给小玮一个机会带您慢慢了解它,如果你之前了解过,也请给小玮一个机会帮助您再次巩固。
下面让我来慢慢细说。
准备
在这节课上,我们会主要了解两个模块,requests和BeautifulSoup。
在最开始呢,肯定是大家要下载安装一下这两个模块。当然如果你按照很久以前的一篇推文里面安装的是anaconda的话,你就不需要下载,因为早就已经安装好了。
下面我介绍一下直接安装python的人的安装方法。打开cmd控制台,输入pip install requests,mac用户呢,输入pip3 install requests等待下载结束就可以了。Beautifulsoup的安装会在后面给出。
模块介绍
下面分别来介绍一下这两个模块。
requests
requests是干什么用的呢。它是用作进行网络请求的模块。在这里给大家举一个例子,大家可以试着去输出一下下面的代码,看看到底是什么。
import requests
req=requests.get('http://docs.python-requests.org/en/master')
print(type(req))
print(req.status_code)
print(req.encoding)
print(req.cookies)
这里的status是状态码,encoding是编码方式。在这里简单的介绍一下常见的状态码。
那么最后的cookies是啥呢?
其实就是一个记录你在这个网页中的活动的东西,可能这么说并不是很形象,可以这样理解,在抖音等APP上,你有没有发现经常看的一些种类的视频总是不断的推送给你,而其他的内容很少推送给你,这是为什么呢?原因很简单,就是因为有这个cookies记录了你的爱好。
就我个人而言