本文讲述了如何使用代码模拟HTTP请求来实现数据爬取、点赞、评论回复等功能。
内容包括:
1.抓包软件WireShark的简单使用方法
2.Python库requests的基本使用
3.一个用代码回复博客的例子
一、思路阐述
首先,要模拟HTTP请求,我们要知道被模拟的真实HTTP它到底包含了哪些东西。它的
目标URL是什么,
参数是什么,是不是带
cookie?除此之外还包括了哪些(比如
Header)?
为了获取这些信息,我们可以使用抓包软件WireShark来
捕获我们真实提交请求时的数据。
这里解释一下为什么要用WireShark?(Chrome浏览器本身其实也自带类似功能,有兴趣的朋友可以去研究下,但是我还是觉得抓包软件牛逼)
你可能觉得我要模拟HTTP请求来提交表单,只要看下网页源代码中的form表单有哪些字段就可以了。
没错,对于一些耿直的安全防护水平低的网站来说,这个方法确实可行。但
对于大多数网站是行不通的。
拿某博客网站做例子,看到它源代码中有个表单域如下:
然而我开着抓包软件,在真实地完成一次评论操作后,获取到的POST请求是这样的: