初次体验Python爬虫

本文介绍了Python初学者如何通过requests库进行基础的HTTPPOST请求,抓取百度翻译的JSON数据。涉及了设置URL、UA伪装、请求参数、处理JSON响应和持久化储存等关键步骤。
摘要由CSDN通过智能技术生成

        多次听闻python的强大,在学习了python的基础后,想进一步把python运用到实际运用中去,于是,想学习一下python爬虫,以下就是一天我的学习收获

开始,如何认识敲一下简单代码爬取百度翻译结果

首先,设置一个想要爬取网站的url

接着就需要导入一个request模块,Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果

在百度翻译随便写个英文单词,然我们通过F12观察,在网络的HXR中,查到我们的请求方法为POST的请求

提示:XHR
XHR全称XMLHttpRequest

XMLHTTP是一组API函数集,可被JavaScript、JScript、VBScript以及其它web浏览器内嵌的脚本语言调用,通过HTTP在浏览器和web服务器之间收发XML或其它数据。XMLHTTP最大的好处在于可以动态地更新网页,它无需重新从服务器读取整个网页,也不需要安装额外的插件。该技术被许多网站使用,以实现快速响应的动态网页应用。例如:Google的Gmail服务、Google Suggest动态查找界面以及Google Map地理信息服务。

XMLHTTP是AJAX网页开发技术的重要组成部分。除XML之外,XMLHTTP还能用于获取其它格式的数据,如JSON或者甚至纯文本。

于是使用request调用post方法来获得请求响应的数据

但是,在此之前需要设置一下UA伪装,让我们的爬虫行为通过浏览器的UA检测

还有请求所需要的请求参数,请求参数可以通过f12查看

为可以动态的进行查询,我们可以设置一个input(),放入到请求参数中去

然后看到响应标头为

Content-Type:application/json

就得把响应结果转化为json格式的数据了

最后,在进行一个持久化的储存,说白了就是把它保存在一个文件里

运行结果为

看起来还不错,哈哈!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值