爬虫杂谈

1. cookie是用来记录访问WEB信息的,所以要维持账号密码登录状态的就要其用cookie。一般情况下,建议关闭,特别是使用随机proxy代理的时候。因为你IP变了,cookie没变,服务器一看就知道请求有问题。


2. 关于fiddler。当URL需要传送表单数据,或者需要进行网页跳转时,可用Fiddler抓包,比如模拟登录时。其他的时候使用浏览器上方的URL或者F12就足够了。


3. 关于header中的Referer。有些网站需要设置这个参数,才能正确访问,特别是一些有跳转链接的网站,比如视频播放。


4. 关于网页匹配的速度快慢。re>xpath>beautifulsoup,但re的上手难度较大,故对于新手,建议使用xpath。


5. Get 和 Post请求的区别:Get : 请求的url会附带查询参数;POST:请求的url不带参数。对于Get请求:查询参数在QueryString里保存;对于Post请求:查询参数在Form表单里保存。


6. 关于反爬虫。大多数网站止于header,proxy,请求频率(delay)。有些网站会将网址中的个别字符进行调整,使你无法访问,例如?与&互换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值