采集网页

// 抓取信息
function getAutoHomeDealerMSG( $_url , $_ip )
{
    $ch = curl_init();

    curl_setopt ($ch, CURLOPT_URL, $_url);

    curl_setopt ($ch, CURLOPT_HEADER, 0);

    curl_setopt ($ch, CURLOPT_HTTPHEADER, array("CLIENT-IP:{$_ip}", "X-FORWARDED-FOR:{$_ip}"));  //此处可以改为任意假IP

    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);

    curl_setopt ($ch, CURLOPT_TIMEOUT, 120);

    $result = curl_exec ($ch);

    curl_close($ch);

    return $result;
}

// 生成ip地址随机数
function ipRand()
{
    $one = mt_rand( 1 , 255 );

    $two = mt_rand( 1 , 255 );

    $three = mt_rand( 1 , 255 );

    $four = mt_rand( 1 , 255 );

    $ipAddress = "{$one}.{$two}.{$three}.{$four}";

    return $ipAddress;
}

此方法只适用于http网站,https抓取需要跳过ssh验证

加入两行代码

    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 跳过证书检查  
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, true);  // 从证书中检查SSL加密算法是否存在()  

第二条可以不写,写上会报错,原因是:
CURLOPT_SSL_VERIFYHOST的值

设为0表示不检查证书
设为1表示检查证书中是否有CN(common name)字段
设为2表示在1的基础上校验当前的域名是否与CN匹配

而libcurl早期版本中这个变量是boolean值,为true时作用同目前设置为2,后来出于调试需求,增加了仅校验是否有CN字段的选项,因此两个值true/false就不够用了,升级为0/1/2三个值。

再后来(libcurl_7.28.1之后的版本),这个调试选项由于经常被开发者用错,被去掉了,因此目前也不支持1了,只有0/2两种取值。

最新版本,它的默认值就是2,因此,这行代码,可以省略不写。

疯子页面采集器是一款网页抓取工具,是用于网站信息采集,网站信息抓取,包括图片、文字等信息采集处理发布,是目前使用人数最多的互联网数据采集程序,可以采集大部分未加密页面站点 采集器教程 https://blog.csdn.net/hwbbbb 下载地址https://www.haolizi.net/example/view_18542.html //---------------------------------------------------------------------------------- 本程序不需要安装 电脑用不了本程序请   点击       “配置信息” ----  点击  "环境配置"     配置了还是用不了请联系qq48411296调试,调试不收财 加好友请备注:疯子 //---------------------------------------------------------------------------------- 本程序只是测试程序,隐藏了部分功能,需要全部功能请qq联系买正式版程序 //---------------------------------------------------------------------------------- 测试程序免费使用,使用正式版程序100元,要求提供源码150元,代写采集代码250元 正式版程序只能在一台电脑使用,换电脑或者电脑坏了需要重新买序列号25元 //---------------------------------------------------------------------------------- qq48411296 加好友请备注:疯子 //---------------------------------------------------------------------------------- 买本程序送php采集器源码 //----------------------------------------------------------------------------------
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值