http://www.cn360cn.com/ 抓取分类爬虫

最新推荐文章于 2020-07-02 14:33:59 发布

robert_zhai

最新推荐文章于 2020-07-02 14:33:59 发布

阅读量2.5k

点赞数

分类专栏： php server

本文链接：https://blog.csdn.net/robert198837/article/details/17095585

版权

server 同时被 2 个专栏收录

70 篇文章 0 订阅

订阅专栏

php

49 篇文章 0 订阅

订阅专栏

<?php
include "../../config/common.php";

define( "PREG_HREF_CAT", "/<div id=\"divhangye\">(.*?)<\/div>/is" );

$proxy = new Proxy();

for($page=1; $page<32; $page++) {
$base = 'http://www.cn360cn.com/';
$url = "http://www.cn360cn.com/province_" . $page . ".aspx";
$cats = get_cat($url);
if(empty($cats)) {
continue;
}
foreach ($cats as $item) {
$item = trim($item);
$item = addslashes($base . $item);
$sql = "insert ignore into cn360_cat set url='{$item}' ";
$proxy->sql_query($sql);
}
}

function get_cat($url = null) {
$content = file_get_contents($url);
$content = mb_convert_encoding($content, "utf-8", "gb2312");
preg_match(PREG_HREF_CAT, $content, $temp);
if(isset($temp[1])) {
$temp = $temp[1];
preg_match_all("/<a\s*href=\"?(.*?)\"?>.*?<\/a>/is", $temp, $urls);
return isset($urls[1]) ? $urls[1] : false;
}
return false;
}

robert_zhai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
http://www.cn360cn.com/ 抓取分类爬虫

include "../../config/common.php";define( "PREG_HREF_CAT", "/(.*?)/is" );$proxy = new Proxy();for($page=1; $page$base = 'http://www.cn360cn.com/';$url = "http://www.c
复制链接

扫一扫