爬虫简述与爬虫实例

电光火石尔

已于 2022-03-09 09:48:21 修改

阅读量625

点赞数 3

文章标签： python 爬虫开发语言

于 2022-03-09 01:58:28 首次发布

本文链接：https://blog.csdn.net/m0_55685698/article/details/123367320

版权

1. 爬虫为何物？

我们首先要了解什么是HTTP协议。

HTTP协议：

又称超文本传输协议，就是客户端与服务器之间的通信协议。我们平时访问网页https://www.xxx.com的过程，就是客户端向web服务器发送请求，web服务器响应请求并返回信息给客户端的过程。web服务器存放大量的数据，它负责向浏览器等web客户端提供文档，也可以放置伪网站文件，让全世界浏览，更可以放置数据文件，让全世界下载。用户通过web浏览器来访问web服务器上所提供的资源。

除了通过浏览器向服务器发起请求外，我们还可以通过编写代码的形式向服务器发起请求。

而爬虫正是采取这样的方式来让我们爬取数据。

2. 如何爬取网页？

首先，我们需要安装request模块，通过cmd命令行输入pip install requests即可。（我这里之前已经安装完成）

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR5Lus5Zyo6aOe5LqR5LmL5LiL,size_20,color_FFFFFF,t_70,g_se,x_16

爬虫实例：

接下来我们通过四个步骤爬取网页：

第一步，指定带爬取网页的URL:

Uniform Resource Locator简称URL，即统一资源定位器。就是每个网页在网上的唯一地址。爬虫根据待爬取的url去爬取网页。

第二步，向服务端发起请求。

第三步，接收服务端返回的对象，同时以文本方式输出。

第四步，持久化存储数据。在当前文件夹新建文件来存储数据。（爬完数据当然需要存储啦）

import requests

if __name__ == "__main__":
    # step1
    url = 'http://fanyi.youdao.com//'

    # step2    
    response = requests.get(url = url)   # requests.get方法会返回一个响应对象。

    # step3
    page_text = response.text       # 以文本形式接收返回信息
    print(page_text)

    # step4                         # 保存已爬取的数据到当前文件夹
    with open('./youdao.html','w',encoding='utf-8') as fp:
        fp.write(page_text)

    print('爬取over!!!')

运行结果：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR5Lus5Zyo6aOe5LqR5LmL5LiL,size_20,color_FFFFFF,t_70,g_se,x_16