所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。
在Python3.5中,我们使用Request这个组件来抓取网页。
Request是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以get函数的形式提供了一个非常简单的接口。
最简单的Request的应用代码只需要四行。
我们新建一个文件test.py来感受一下Request的作用:
import requests
from bs4 import BeautifulSoup
#coding:utf-8
url = 'http://www.baidu.com'
try:
response = requests.get(url)
#URLError
#通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
except:
data = {
'url':url,
'error_type'