之前在oschina上看到一个用python写的
代理刷网页点击量 ,最近学习了下Python的基本语法,仔细研读了下代码,
“代码主要实现网页的点击量,除了实现次功能点外,还有三个知识点:
1、随机获取代理ip,通过代理ip访问指定站点,其目的是防止ip被封
2、访问一个页面后,随机休息几秒,再访问,其目的是防止网站前面有4-7层过滤设备拦截
3、修改http的user agent字段,有些网站和4-7层设备会检查”
第一点,获取代理IP,这个功能很常用,例如投票、伪装自己,原帖在获取代理IP网页源代码后(
第二点,发现原帖没访问一个页面后,就重新做第一步以更新代理IP列表,实际运行过程中,获取代理IP的过程用的时间很长,这是个小缺点,其实可以通过记录失败次数是否达到一个上限来决定是否更新代理IP列表。
本着学习熟练Python和黑客技巧的目的,决定仿照代理刷网页点击量的方法,重写一个Python程序&#
“代码主要实现网页的点击量,除了实现次功能点外,还有三个知识点:
1、随机获取代理ip,通过代理ip访问指定站点,其目的是防止ip被封
2、访问一个页面后,随机休息几秒,再访问,其目的是防止网站前面有4-7层过滤设备拦截
3、修改http的user agent字段,有些网站和4-7层设备会检查”
第一点,获取代理IP,这个功能很常用,例如投票、伪装自己,原帖在获取代理IP网页源代码后(
urllib2
),用正则表达式提取IP和端口号,而另一篇文章用第三方库BeautifulSoup来处理网页-“
简单的博客文章爬虫”。
第二点,发现原帖没访问一个页面后,就重新做第一步以更新代理IP列表,实际运行过程中,获取代理IP的过程用的时间很长,这是个小缺点,其实可以通过记录失败次数是否达到一个上限来决定是否更新代理IP列表。
本着学习熟练Python和黑客技巧的目的,决定仿照代理刷网页点击量的方法,重写一个Python程序&#