采集
@航空母舰
这个作者很懒,什么都没留下…
展开
-
PHP用正则批量替换Img中src内容
配合jquery.lazyload.js使用/*** 图片地址替换成压缩URL* @param string $content 内容* @param string $suffix 后缀*/function get_img_thumb_url($content="",$suffix="/statics/images/product_2.jpg"){ $pregRule = ...原创 2018-07-14 11:18:30 · 746 阅读 · 0 评论 -
PHP正则采集示例 sscanf
st textListBig"><li><a href="/learn/article/21707">为宝宝记录成长每一刻</a></li><li><a href="/learn/article/21705">细数与宝宝树的情愫</a>&原创 2018-01-13 00:55:41 · 416 阅读 · 1 评论 -
爬虫怎么解决封IP
使用代理IP,在IP被封掉之前或者封掉之后迅速换掉该IP,这种做法主要需要大量稳定的代理IP,代理IP有免费的,但是不稳定。这里的技巧是循环使用,在一个IP没有被封之前,就换掉,过一会再换回来。这样就可以使用相对较少的IP进行大量访问。讯代理首页每10分钟更新的免费代理,发现还是挺好的,于是就先把讯代理首页的免费代理先爬下来(10分钟爬一次数据缓存起来,缓存10分钟失效),再用爬下来的代理循环使用去爬其他网站的东西。2. 使用VPN,VPN跟带来作用类似,只是技术上稍有差别。本质是一样的。3. 使用原创 2018-01-12 15:36:35 · 709 阅读 · 0 评论 -
php curl批处理--可控并发异步
际项目或者自己编写小工具(比如新闻聚合,商品价格监控,比价)的过程中, 通常需要从第3方网站或者API接口获取数据, 在需要处理1个URL队列时, 为了提高性能, 可以采用cURL提供的curl_multi_*族函数实现简单的并发.<?phpinclude 'curl.class.php';function callback($response, $info, $error, $request){ echo 'response:<br>';原创 2012-08-17 17:11:58 · 122 阅读 · 0 评论 -
CURL HTTP请求类
CURL fopen file_get_contentsfopen /file_get_contents 每次请求都会重新做DNS查询,并不对DNS信息进行缓存。但是CURL会自动对DNS信息进行缓存。对同一域名下的网页或者图片的请求只需要一次DNS查询。这大大减少了DNS查询的次数。所以CURL的性能比fopen /file_get_contents 好很多。fopen /file_get_contents在请求HTTP时,使用的是http_fopen_wrapper,不会keeplive。而cur.原创 2011-11-15 23:16:52 · 282 阅读 · 0 评论 -
snoopy 采集
原创 2011-02-11 11:32:06 · 128 阅读 · 0 评论 -
同一域名对应多个IP时,PHP获取远程网页内容的函数
在DNS轮询等负载均衡中,同一域名,可能对应多台服务器,多个IP。假设blog.s135.com被DNS解析到72.249.146.213、72.249.146.214、72.249.146.215三个IP,用户每次访问blog.s135.com,系统会根据负载均衡的相应算法访问其中的一台服务器。 上周做一个视频项目时,就碰到这样一类需求:需要依次访问每台服务器上的一个PHP接口程序(假设为abc.php),查询这台服务器的传输状态。 这时就不能直接用file_get_contents访原创 2011-02-10 21:41:31 · 96 阅读 · 0 评论 -
PHP正则采集常用方法
正则表达式是一个非常有用的编程技能。一般来说,简单的抓取一个HTML页面的某一条信息,比如<title>标题</title>,是很容易实现的。但是,我们往往要抓取某一个列表页面里的多个重复的<div></div>块里的特定内容,并且<div></div>块还有嵌套的使用,我们抓取的则是每个重复<div></d...原创 2011-02-09 10:21:59 · 362 阅读 · 0 评论 -
PHP DOM节点采集
ght="960"marginheight=0 marginwidth=0 scrolling=no src="http://localhost/appreciate/mobile/recharge"></iframe> </div>iframe中修改采集页的form提交action,提交到本站进行处理,将提交的数据在模拟采集页提交。(一个表单做2次提交http://hudeyong原创 2010-06-29 23:09:02 · 245 阅读 · 0 评论 -
JS实现爬虫 原生js实现Ajax
原创 2019-01-21 11:10:48 · 1787 阅读 · 1 评论