网页抓取系列

工具介绍:(祖传软件,亲测有效)

1.火狐浏览器(建议使用15-20之间的版本兼容)  https://pan.baidu.com/s/1eSvpCBK

2.HTTPWatch9.1(只有这个版本兼容火狐)  https://pan.baidu.com/s/1c24Ngac

3.fiddler (随便百度)


背景介绍:

        在做爬虫类似项目的时候都需要从网页上抓取指定的信息进行操作和分析,Java中用到HTTPclient来模拟发送请求获得我们所需的信息,具体的HTTPclient使用可见另外一个wiki。在正常阅览器访问网页时打卡抓取工具,在每次发出请求的时候都会相应的抓取到相应的请求以及返回的response。在不需要返回数据的时候只用记录每次返回时的网页状态,如果需要获取数据可以收集返回体的内容。



使用方法:(有多个组合自己选择)

1.(火狐+httpwatch):先把两个软件安装好,火狐安装的时候记得千万不要更新高版本不会再兼容httpwatch。两个都安装好后打开火狐输入网址的地方的有httpWatch软件的图标点击既可以打开抓取软件。具体的图解教程见 https://jingyan.baidu.com/article/5553fa820539ff65a339345d.html

2.(谷歌或者火狐+fiddler):先把相应的软件装好,这个方案不要求阅览器的版本,具体的原理是fiddler软件相当于电脑自带的代理服务器,这台电脑所有的HTTP请求都会先通过fiddler在转给相应的服务器,而返回的相应也是先通过fiddler在转发给阅览器,这个软件的大概原理是修改预览器的IP地址为127.0.0.1,端口8888,不过现在fiddler做的比较智能,不用在手动修改在你使用软件的时候就会自动修改相应阅览器的内容(自己试的谷歌和火狐同时打开发出请求都会拦截请求),在记录里边可以看到你请求的参数、请求头、响应体等内容。但是这个软件不仅仅能做抓取包还能其他功能还需要自己去开发后期会在进行补充。如果不知道里面的图标含义以及使用方法见: http://blog.csdn.net/ohmygirl/article/details/17846199   http://blog.csdn.net/ohmygirl/article/details/17849983

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值