爬虫
hongtoushiziyuan
这个作者很懒,什么都没留下…
展开
-
PHP模拟登录并获取数据
转载自: http://www.helloweba.com/view-blog-253.htmlcURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数,开发者可以从PHP手册中获取更多关于cURL信息。本文以模拟登录开源中国(oschina)为例,和大家分享cURL的使用。PHP的cur...原创 2015-11-12 00:37:43 · 103 阅读 · 0 评论 -
如何防止网站被爬虫爬取的几种办法
转载自: http://laoxu.blog.51cto.com/4120547/1302013 今天想对一个问题进行分析和讨论,就是关于爬虫对网站页面爬取的问题,有些网站通过爬虫去采集其它的网站页面信息作为己用,大量的爬取行为会对web服务器有比较性能有影响,主要的表现就是会变得很慢。对于如何防止网站被爬取,我想从以下几种方法去分析:1.基于程序本身去防止爬取:作为爬虫程序,...原创 2015-11-12 01:36:44 · 877 阅读 · 0 评论 -
社会化海量数据采集爬虫框架搭建
转载自: http://www.lanceyan.com/tech/arch/snscrawler.html 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是...原创 2015-12-14 11:41:55 · 109 阅读 · 0 评论