【python爬虫实例】爬取百度翻译，有源码

布丁_码到成功

已于 2023-06-08 09:26:06 修改

阅读量2k

点赞数 2

分类专栏： python学习文章标签： python 爬虫数据分析

于 2023-05-01 09:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59541412/article/details/130447540

版权

python学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

目录

爬虫常用的知识点包括：

HTTP请求：使用HTTP请求可以向目标网站发送请求并获取网站返回的内容。常用的请求方式包括GET和POST请求。

HTML解析：使用HTML解析技术可以将网站返回的HTML文档解析成Python对象，方便程序对网站内容进行处理和分析。常用的Python库包括BeautifulSoup和lxml等。

JSON：JSON是一种轻量级数据交换格式，常用于数据传输和存储。在爬虫中，我们经常会使用JSON格式来处理网站返回的数据。

异步加载：有些网站采用异步加载技术来显示内容，这种情况下我们需要使用Selenium等工具来模拟浏览器行为，才能够获取到完整的数据。

python爬虫实例——百度翻译(requests案例详解)

一、百度翻译网页中需要爬取的内容

二、爬取步骤解析

ajax异步加载是什么？

返回结果的查看方式发生变化

三、开始写代码

1.导入requests模块

2.获取请求类型以及网址信息

请求头request headers，用于反爬：

4.分析网页的响应信息

5.保存网页信息

1.判断请求类型（post/get）

2.根据类型选择参数，

3.我们根据相应的类型（text/Json），获取到网页信息

4.保存数据信息即可。

现如今,Python在世界编程语言排行榜中排名第一的编程语言，它的语法简单易学，适合初学者入门，同时也具有强大的功能和广泛的应用，可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。

而爬虫，无疑也是学计算机的需要掌握的技能。因为，大数据时代，在做数据分析或数据挖掘时，首先要有大量的数据。而爬虫，无疑是采集数据很方便的方式。

从今天起，会专门写一个专栏，用来介绍一些Python爬虫实例，希望能帮到各位，记得三连哦，有任何问题请留言，看到会及时回复。

爬虫常用的知识点包括：

HTTP请求：使用HTTP请求可以向目标网站发送请求并获取网站返回的内容。常用的请求方式包括GET和POST请求。
HTML解析：使用HTML解析技术可以将网站返回的HTML文档解析成Python对象，方便程序对网站内容进行处理和分析。常用的Python库包括BeautifulSoup和lxml等。
JSON：JSON是一种轻量级数据交换格式，常用于数据传输和存储。在爬虫中，我们经常会使用JSON格式来处理网站返回的数据。
异步加载：有些网站采用异步加载技术来显示内容，这种情况下我们需要使用Selenium等工具来模拟浏览器行为，才能够获取到完整的数据。

常用的爬虫会用requests来爬取，至于python的基础知识，文章中会简单带过，如果还没有基础的小伙伴，最好是将Python的基础知识熟悉一下，再来看爬虫系列的文章。

python爬虫实例——百度翻译(requests案例详解)

一、百度翻译网页中需要爬取的内容

我们通过输入想要翻译的内容，将翻译的结果（如下图）提取出来

二、爬取步骤解析

分析页面

ajax异步加载是什么？

我们在输入词语的时候，我们会发现百度翻译结果随之就加载出来了，不像有些网页在浏览器搜索后点回车才显示结果。这里我们就简单的介绍一下--网页中ajax异步加载技术

传统的Web应用中，页面的渲染和数据的加载是通过同步的方式来完成的，即浏览器发送请求，服务器返回响应，浏览器解析响应并渲染页面。

在现代Web应用中，为了提高用户体验和性能，很多网站采用了异步加载技术，也称为Ajax技术。使用Ajax技术可以部分地更新页面，而不需要重新加载整个页面。这种技术可以使网站更加动态和快速，同时也可以减少服务器的负载。

在使用Ajax技术时，浏览器会使用JavaScript向服务器发送请求，并在收到响应后，使用JavaScript来更新局部页面。在这个过程中，用户不需要离开当前页面，也不需要等待整个页面重新加载。常用的JavaScript库包括jQuery和React等。

返回结果的查看方式发生变化

因为ajax异步加载，我们不能再像以前一样查看数据了（如下图），我们不再是查看network(网络)下面的全部数据，我们选择network(网络)/XMLHttpRequest(xhr)标签页下的数据，这是我们想要的浏览器返回结果。

（以前要查看的数据）

（现在要看的数据）

我们通过查看XMLHttpRequest(xhr)预览选项发现，v2tranapi文件下的数据是我们想要的，因此我们xhr-v2tranapi--表头进入，查找我们想要的数据

三、开始写代码

1.导入requests模块

2.获取请求类型以及网址信息

F12获取页面请求的返回信息（如下图）可知，百度翻译的请求类型是post类型，并且我们获取到了网页的URL：

当请求类型是GET请求时，只需要请求URL就可以发请求了，但如果是POST 请求还需要请求参数：

请求头request headers，用于反爬：

3.书写代码

通过上一步骤我们获取到了URL、data、请求类型为post，以及获取到的headers，便可书写如下代码：

4.分析网页的响应信息

根据网页的响应信息，可以看出它是json类型的数据，我们需要先导入JSON，然后通过JSON获取网页的内容。

这里不能直接把返回值打印出来，需要转化为json格式的数据，否则会报错

5.保存网页信息

这是我们这个练习的完整代码，大家可以试着运行一下。

我们会发现使用requests模块，我们需要：

1.判断请求类型（post/get）

2.根据类型选择参数，

3.我们根据相应的类型（text/Json），获取到网页信息

4.保存数据信息即可。

布丁_码到成功

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
1
评论
【python爬虫实例】爬取百度翻译，有源码

现如今,Python在世界编程语言排行榜中排名第一的编程语言，它的语法简单易学，适合初学者入门，同时也具有强大的功能和广泛的应用，可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。而爬虫，无疑也是学计算机的需要掌握的技能。因为，大数据时代，在做数据分析或数据挖掘时，首先要有大量的数据。而爬虫，无疑是采集数据很方便的方式。从今天起，会专门写一个专栏，用来介绍一些Python爬虫实例，希望能帮到各位，记得三连哦，有任何问题请留言，看到会及时回复。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

布丁_码到成功 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。