1. 爬虫为何物?
我们首先要了解什么是HTTP协议。
HTTP协议:
又称超文本传输协议,就是客户端与服务器之间的通信协议。我们平时访问网页https://www.xxx.com的过程,就是客户端向web服务器发送请求,web服务器响应请求并返回信息给客户端的过程。web服务器存放大量的数据,它负责向浏览器等web客户端提供文档,也可以放置伪网站文件,让全世界浏览,更可以放置数据文件,让全世界下载。用户通过web浏览器来访问web服务器上所提供的资源。
除了通过浏览器向服务器发起请求外,我们还可以通过编写代码的形式向服务器发起请求。
而爬虫正是采取这样的方式来让我们爬取数据。
2. 如何爬取网页?
首先,我们需要安装request模块,通过cmd命令行输入pip install requests即可。(我这里之前已经安装完成)
爬虫实例:
接下来我们通过四个步骤爬取网页:
第一步,指定带爬取网页的URL:
Uniform Resource Locator简称URL,即统一资源定位器。就是每个网页在网上的唯一地址。爬虫根据待爬取的url去爬取网页。
第二步,向服务端发起请求。
第三步,接收服务端返回的对象,同时以文本方式输出。
第四步,持久化存储数据。在当前文件夹新建文件来存储数据。(爬完数据当然需要存储啦)
import requests
if __name__ == "__main__":
# step1
url = 'http://fanyi.youdao.com//'
# step2
response = requests.get(url = url) # requests.get方法会返回一个响应对象。
# step3
page_text = response.text # 以文本形式接收返回信息
print(page_text)
# step4 # 保存已爬取的数据到当前文件夹
with open('./youdao.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取over!!!')
运行结果: