简单的php爬虫代码示例。获取可用的免费代理IP,并将结果保存到本地文件中。

Step 1:发送请求

$url = '';
$header = array(
  'User-Agent:a9694ebf4d02ef427830292349e3172c/5.0(Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
  'Referer: ',
);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
$content = curl_exec($ch);
curl_close($ch);

Step 2:解析页面内容

preg_match_all('/<tr[^>]*>(.*?)<\/tr>/si', $content, $matches);
$data = array();
foreach ($matches[1] as $k => $v) {
  if ($k == 0) {
    continue;
  }
  preg_match_all('/<td[^>]*>(.*?)<\/td>/si', $v, $_match);
  if (!empty($_match[1][0])) {
    $data[] = array(
      'ip' => $_match[1][0],
      'port' => $_match[1][1],
      'type' => $_match[1][5],
    );
  }
}

Step 3:验证代理ip可用性

function check_proxy($ip, $port)
{
  $url = '';
  $header = array('User-Agent:a9694ebf4d02ef427830292349e3172c/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',        'Referer: ',);
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_PROXYAUTH, CURLAUTH_BASIC);
  curl_setopt($ch, CURLOPT_PROXYPORT, $port);
  curl_setopt($ch, CURLOPT_PROXYTYPE, 'HTTP');
  curl_setopt($ch, CURLOPT_PROXY, $ip);
  curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  $content = curl_exec($ch);
  $httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
  curl_close($ch);
  if ($httpCode == 200) {
    return true;
  } else {
    return false;
  }
}

Step 4:保存结果到本地文件

$file = 'proxy.txt';
foreach ($data as $v) {
  if (check_proxy($v['ip'], $v['port'])) {
    file_put_contents($file, "{$v['ip']}:{$v['port']}\r\n", FILE_APPEND);
  }
}

参考

使用PHP实现随机获取代理IP的爬虫

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值