模拟用户行为高匿爬虫的设计开发

       模拟用户行为一是为了爬取数据异步加载页面方面,二也是为了爬虫行为高度模仿用户行为,最终目的还是为了高匿,写高匿爬虫做什么,我就不说了,反正现在用爬虫做事的公司太多了,很多公司应该都有这方面的需求。我在本文中主要使用之前博客介绍过的pyspider,偶尔也会谈谈一些其他手段。不会谈及Scrapy,因为已经基本忘了它的特性内容了。

       先谈谈用户行为模拟,这个东西最常见的方法应该是Selenium WebDriver技术,这个东西是做Web自动化测试的,用Django的同学用StaticLiveServerTestCase也可以,当然这东西里面内部是依靠Selenium,在Django用testcase做这个事,主要是可以使用Django的models等设施方便做其他事。不能瞎扯了,谈正题:Pyspider这方面,可以使用pyspider集成的phantomjs,代码里具体怎么用法,看pyspider文档吧。后面会讲一些配置的问题。

下面讲怎么做高匿:

1、IP隐藏,现在网上有很多高匿http代理,所谓高匿代理,就是代理对被访问服务器完全隐藏其被代理的客户端,具体细节见此文(http://www.aikaiyuan.com/9477.html),注意:使用网上的高匿代理时,一定要先在自己的服务器上试一下,防止伪高匿发生,在Pyspider的Phantomjs中使用代理服务器,需要单独启动phantomjs服务,启动命令:

pyspider phantomjs -- --proxy=address:port

使用上面这个命令&
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值