关闭

http://www.cn360cn.com/ 抓取分类爬虫

1204人阅读 评论(0) 收藏 举报
分类:
<?php
include "../../config/common.php";


define( "PREG_HREF_CAT", "/<div id=\"divhangye\">(.*?)<\/div>/is" );


$proxy = new Proxy();


for($page=1; $page<32; $page++) {
$base = 'http://www.cn360cn.com/';
$url = "http://www.cn360cn.com/province_" . $page . ".aspx";
$cats = get_cat($url);
if(empty($cats)) {
continue;
}
foreach ($cats as $item) {
$item = trim($item);
$item = addslashes($base . $item);
$sql = "insert ignore into cn360_cat set url='{$item}' ";
$proxy->sql_query($sql);
}
}


function get_cat($url = null) {
$content = file_get_contents($url);
$content = mb_convert_encoding($content, "utf-8", "gb2312");
preg_match(PREG_HREF_CAT, $content, $temp);
if(isset($temp[1])) {
$temp = $temp[1];
preg_match_all("/<a\s*href=\"?(.*?)\"?>.*?<\/a>/is", $temp, $urls);
return isset($urls[1]) ? $urls[1] : false;
}
return false;
}
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:309240次
    • 积分:5911
    • 等级:
    • 排名:第4461名
    • 原创:300篇
    • 转载:185篇
    • 译文:0篇
    • 评论:10条
    最新评论