爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解。今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据。
我们先看一哈用这个requests类库做的效果
本节分享技术知识点:
- python导入三方类库的学习
- requests类库的简单使用
- 爬取网页数据
一、爬取网页数据实现代码
# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
这就是实现爬取网页数据的全部代码,简单易操作。python的魅力,就是用最少的代码做最多的事。
二、创建一个python类,把上面的代码复制进去
1、如创建一个叫 pachong的类,如下图(文件取名,随意)
创建好以后,把上面第一步的代码复制进去,这时候会报红。要解决这个报红的问题则需要导入第三方类库。
三、导入第三方类库
1、其实导入三方类库也很简单,有下面两种方式。(此次讲解以mac为列)
3.1.1、输入requests时按alt+回车键(Mac电脑)
3.1.2、或者点击这个红色灯泡,然后install导入第三方类库
如上面两种方式,我们便可以轻松的导入类库了。
四、运行代码
1、导入成功后,点击requests不在报红,则开始点击运行代码
运行完后,就可以爬取到网页数据了,如下图所示。
到这里我们就轻松的实现了网页数据的爬取,我们后面要做的就是使用正则表达式,从上图的数据中,过滤出自己需要的数据。