爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解。今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据。
![78a574a3d455b95833f2fb3894129a3a.png](https://i-blog.csdnimg.cn/blog_migrate/6647740fdb106106c93b36386990b251.jpeg)
我们先看一哈用这个requests类库做的效果
![bbb7a8336c2ae79eb0d4fa1f71d99967.png](https://i-blog.csdnimg.cn/blog_migrate/7faea34d51f4066ae1a5d1d1cc6a1623.jpeg)
本节分享技术知识点:
- python导入三方类库的学习
- requests类库的简单使用
- 爬取网页数据
一、爬取网页数据实现代码
# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
这就是实现爬取网页数据的全部代码,简单易操作。python的魅力,就是用最少的代码做最多的事。
二、创建一个python类,把上面的代码复制进去
1、如创建一个叫 pachong的类,如下图(文件取名,随意)
![e1d5b6a2731d56df0e18f7fabb4375a8.png](https://i-blog.csdnimg.cn/blog_migrate/1ae48d8a475e338e32013391c90c1cc3.jpeg)
![f672b454af99cbfe822ddd5513670509.png](https://i-blog.csdnimg.cn/blog_migrate/00111af6595a972b1c647e444af59600.jpeg)
创建好以后,把上面第一步的代码复制进去,这时候会报红。要解决这个报红的问题则需要导入第三方类库。
![01231467a15632c20e7983e6cfcbb515.png](https://i-blog.csdnimg.cn/blog_migrate/ed29684fc7579c7ee1ccc8f764630ed0.jpeg)
三、导入第三方类库
1、其实导入三方类库也很简单,有下面两种方式。(此次讲解以mac为列)
3.1.1、输入requests时按alt+回车键(Mac电脑)
![8cbeb3c91e5da551e9a896934045eab8.png](https://i-blog.csdnimg.cn/blog_migrate/488eeadcc975e4046c222fe8c2633adb.jpeg)
3.1.2、或者点击这个红色灯泡,然后install导入第三方类库
![51f5fb7bf33f34ec8b0462f4405f74a1.png](https://i-blog.csdnimg.cn/blog_migrate/c5ed855ffc838945ef7a6d0247865912.jpeg)
如上面两种方式,我们便可以轻松的导入类库了。
四、运行代码
1、导入成功后,点击requests不在报红,则开始点击运行代码
![3517b528f6745b7d2924bcc51019ca5f.png](https://i-blog.csdnimg.cn/blog_migrate/91972e149f59b9bbccd598bd21351102.jpeg)
运行完后,就可以爬取到网页数据了,如下图所示。
![c63fb08ee1a245cc1059f3783a9b8d13.png](https://i-blog.csdnimg.cn/blog_migrate/b78aa08d905cf0bc4b10b47d4c4f4414.jpeg)
到这里我们就轻松的实现了网页数据的爬取,我们后面要做的就是使用正则表达式,从上图的数据中,过滤出自己需要的数据。