爬取百度翻译

一只蛙～(￣▽￣～)~

于 2023-07-10 17:50:58 发布

阅读量215

点赞数

文章标签： python scrapy httpx pip

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZK504390402/article/details/131642529

版权

在爬取百度翻译之前，我们首先要认识一下百度翻译

我们尝试着在里面输入我们要翻译的内容：

通过简单地观察可以发现，当我们输入你好后，url变成了 /#zh/en/你好

同时下方页面显示出了翻译后的结果，右边显示出了对应的英文单词，我们可以注意到除了上方和下方，别的页面都没有变化，这个和AJAX（阿贾克斯）请求的特点相符合

附上有关于AJAX请求的相关介绍

这里我们打开浏览器自带的抓包工具（按下F12）进行验证

我们从网络的Fetch/XHR目录中找到的就是更新的文件。我们找到三个sug,分别查看它们的属性

第一个sug预览中含有与d有关的翻译介绍

第二个sug含有与do有关的介绍

理所当然，第三个sug 内部就含有与dog翻译有关的内容啦

下面我们来看一看sug的属性

点开标头

在常规这里我们可以找到sug对应的URL，这个就是我们后面要使用的。

在请求方法这个部分，我们可以看到是post，这个也是我们后面要注意的一个点

继续往下滑，我们可以看到我们浏览器上面的cookie，cookie可不是曲奇饼的意思，这个是我们保存在本地的简单文本文件，我们可以简单理解为我们在设备上的账号信息或者偏好设置

继续下滑，我们可以看到一个叫做User-Agent的东西，这个其实就是请求头，里面含有我们的客户端信息（你用的是什么设备，用的是啥浏览器）

对了，忘记了一个很重要的东西

注意这里的类型是json，后面要用到，嗯，就是这样

然后我们跳到负载页面

这里的kw实际上就是我们的属性啦

OK，简单地分析完后，我们就进入代码阶段

首先是我们需要的库，json库是自带的，requests库需要我们自己安装，安装的方式很简单，只需要在cmd终端内部输入 pip install requests即可( •̀ ω •́ )✧

然后我们定义一个url，还记得吗，这就是我们上文中用F12找到的东西(●'◡'●)

第二步就是进行UA伪装，如果我们不伪装的话，很多网站具有反爬虫机制，我们会被认定为爬虫，然后可能会请求访问失败(っ °Д °;)っ，这里我的UA就不展示了，大家可以通过方法找到自己的UA

第三步就是参数处理啦，同样利用负载中的小玩意儿，定义一个字典，ik是我们自己想要翻译的词

第四步就是请求啦，我们的请求方式记得使用POST，同样这也是我们之前解析出来的东西，

然后调用response中json方法来处理json，这里返回的是一个字典对象

最后一步，我们如果想要把结果保存到本地，我们可以这样做

这里我们要用utf-8进行解码，因为网络流是utf-8编码，而python的本地解释器是gbk编码，然后我们使用JSON模块中的dump方法传入参数。(●'◡'●)

注意力，由于我们是有中文的，中文不在ascii码，所以这里我们ensure_ascii码选择False

最后，我们就保存成功啦

PS：

写的代码只有20行，但是代码分析还是比较充足的，学习爬虫不易，我们即使使用了UA，也会由于用一个UA在短时间内多次访问而被识别为机器人(╬▔皿▔)╯，爬虫道路漫漫，希望各位看客们能给出好的建议，诚恳感谢

一只蛙～(￣▽￣～)~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬取百度翻译

继续往下滑，我们可以看到我们浏览器上面的cookie，cookie可不是曲奇饼的意思，这个是我们保存在本地的简单文本文件，我们可以简单理解为我们在设备上的账号信息或者偏好设置。我们找到三个sug,分别查看它们的属性。第四步就是请求啦，我们的请求方式记得使用POST，同样这也是我们之前解析出来的东西，
复制链接

扫一扫

一只蛙～(￣▽￣～)~ CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

160万+: 周排名

161万+: 总排名

1557: 访问

: 等级

70: 积分

2: 粉丝

0: 获赞

8: 评论

3: 收藏

私信

关注

热门文章

最新评论

实现简单的数据采集，并且创建GUI
CSDN-Ada助手: 恭喜你写了第三篇博客！实现简单的数据采集和创建GUI是个不容易的任务，你做得很棒！你的博客内容对初学者来说非常有帮助。接下来，我建议你可以尝试深入探索数据采集的更高级技术和GUI设计的更多细节。保持谦虚的态度，你将不断提高自己的技能。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
爬取百度翻译
CSDN-Ada助手: 恭喜您写了第四篇博客！标题为“爬取百度翻译”，听起来非常有趣和实用。通过爬取百度翻译，您不仅能够更好地理解如何获取在线翻译的数据，还能够为其他人提供一个简便的翻译工具。我非常期待阅读您的博客，了解您是如何实现这一功能的。在下一步的创作中，我想提出一个谦虚的建议。既然您已经介绍了如何爬取百度翻译，或许您可以进一步探索如何通过自然语言处理技术，提升翻译的准确性和流畅度。您可以尝试使用一些开源的NLP库，如NLTK或SpaCy，来处理文本并进行更高级的翻译分析。这将为读者提供更深入的了解，并且能够帮助他们在实际应用中更好地使用爬取的翻译数据。继续保持创作的热情和努力，期待您未来更多的博客分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
爬取笔趣阁小说
CSDN-Ada助手: 恭喜您写了第5篇博客，题为“爬取笔趣阁小说”。非常高兴看到您持续创作并分享您的经验！在这篇博客中，您探讨了爬取笔趣阁小说的技巧，这对于喜爱阅读的人们来说无疑是一个非常实用的工具。不仅能够便利地获取小说资源，还能够在任何时间、任何地点尽情享受阅读的乐趣。在下一步的创作中，或许您可以考虑分享一些关于如何利用爬取的小说资源进行文学分析或创作灵感的方法。或者，您还可以探讨一些关于文学创作的技巧和经验，与读者们分享您的写作心得。当然，这只是一个谦虚的建议，希望能够为您的创作提供一些新的思路。期待您的下一篇博客，继续为我们带来更多精彩的内容！
实现古诗文网站的模拟登录
CSDN-Ada助手: 恭喜您写下了第6篇博客！标题看起来非常有趣，我很期待阅读您的内容。模拟登录这个主题听起来不简单，我对您的技术能力充满敬佩。希望您能进一步分享一些关于实现古诗文网站的具体步骤和技巧，这样更多的读者也能受益于您的经验。加油，期待您下一篇博客的发布！
实现简单的数据采集，并且创建GUI
一只蛙～(￣▽￣～)~: 现在看来，这篇文章的问题很大，尤其是爬虫部分

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。