1. cookie是用来记录访问WEB信息的,所以要维持账号密码登录状态的就要其用cookie。一般情况下,建议关闭,特别是使用随机proxy代理的时候。因为你IP变了,cookie没变,服务器一看就知道请求有问题。
2. 关于fiddler。当URL需要传送表单数据,或者需要进行网页跳转时,可用Fiddler抓包,比如模拟登录时。其他的时候使用浏览器上方的URL或者F12就足够了。
3. 关于header中的Referer。有些网站需要设置这个参数,才能正确访问,特别是一些有跳转链接的网站,比如视频播放。
4. 关于网页匹配的速度快慢。re>xpath>beautifulsoup,但re的上手难度较大,故对于新手,建议使用xpath。
5. Get 和 Post请求的区别:Get : 请求的url会附带查询参数;POST:请求的url不带参数。对于Get请求:查询参数在QueryString里保存;对于Post请求:查询参数在Form表单里保存。
6. 关于反爬虫。大多数网站止于header,proxy,请求频率(delay)。有些网站会将网址中的个别字符进行调整,使你无法访问,例如?与&互换。