爬虫简述与爬虫实例

 1. 爬虫为何物?

我们首先要了解什么是HTTP协议。

HTTP协议:

又称超文本传输协议,就是客户端与服务器之间的通信协议。我们平时访问网页https://www.xxx.com的过程,就是客户端向web服务器发送请求,web服务器响应请求并返回信息给客户端的过程。web服务器存放大量的数据,它负责向浏览器等web客户端提供文档,也可以放置伪网站文件,让全世界浏览,更可以放置数据文件,让全世界下载。用户通过web浏览器来访问web服务器上所提供的资源。

除了通过浏览器向服务器发起请求外,我们还可以通过编写代码的形式向服务器发起请求。

而爬虫正是采取这样的方式来让我们爬取数据。

2. 如何爬取网页?

首先,我们需要安装request模块,通过cmd命令行输入pip install requests即可。(我这里之前已经安装完成)

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR5Lus5Zyo6aOe5LqR5LmL5LiL,size_20,color_FFFFFF,t_70,g_se,x_16

爬虫实例:

接下来我们通过四个步骤爬取网页:

第一步,指定带爬取网页的URL:

Uniform Resource Locator简称URL,即统一资源定位器。就是每个网页在网上的唯一地址。爬虫根据待爬取的url去爬取网页。

第二步,向服务端发起请求。

第三步,接收服务端返回的对象,同时以文本方式输出。

第四步,持久化存储数据。在当前文件夹新建文件来存储数据。(爬完数据当然需要存储啦)

import requests

if __name__ == "__main__":
    # step1
    url = 'http://fanyi.youdao.com//'

    # step2    
    response = requests.get(url = url)   # requests.get方法会返回一个响应对象。

    # step3
    page_text = response.text       # 以文本形式接收返回信息
    print(page_text)

    # step4                         # 保存已爬取的数据到当前文件夹
    with open('./youdao.html','w',encoding='utf-8') as fp:
        fp.write(page_text)

    print('爬取over!!!')

运行结果:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR5Lus5Zyo6aOe5LqR5LmL5LiL,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电光火石尔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值