多次听闻python的强大,在学习了python的基础后,想进一步把python运用到实际运用中去,于是,想学习一下python爬虫,以下就是一天我的学习收获
开始,如何认识敲一下简单代码爬取百度翻译结果
首先,设置一个想要爬取网站的url
接着就需要导入一个request模块,Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果
在百度翻译随便写个英文单词,然我们通过F12观察,在网络的HXR中,查到我们的请求方法为POST的请求
提示:XHR
XHR全称XMLHttpRequest
XMLHTTP是一组API函数集,可被JavaScript、JScript、VBScript以及其它web浏览器内嵌的脚本语言调用,通过HTTP在浏览器和web服务器之间收发XML或其它数据。XMLHTTP最大的好处在于可以动态地更新网页,它无需重新从服务器读取整个网页,也不需要安装额外的插件。该技术被许多网站使用,以实现快速响应的动态网页应用。例如:Google的Gmail服务、Google Suggest动态查找界面以及Google Map地理信息服务。
XMLHTTP是AJAX网页开发技术的重要组成部分。除XML之外,XMLHTTP还能用于获取其它格式的数据,如JSON或者甚至纯文本。
于是使用request调用post方法来获得请求响应的数据
但是,在此之前需要设置一下UA伪装,让我们的爬虫行为通过浏览器的UA检测
还有请求所需要的请求参数,请求参数可以通过f12查看
为可以动态的进行查询,我们可以设置一个input(),放入到请求参数中去
然后看到响应标头为
Content-Type:application/json
就得把响应结果转化为json格式的数据了
最后,在进行一个持久化的储存,说白了就是把它保存在一个文件里
运行结果为
看起来还不错,哈哈!