php 爬取网站内容

复制直接可用

注意正则匹配仅限与示例中的网址 

index();
function index()
{  
    // 要爬取的网页
    $url = 'https://mc.dfrobot.com.cn/';
    $result = httpCurl($url,[],'GET');
    // 图片
    $avatarRule = "/<div class=\"imgBox\".*?>.*?<\/div>/s"; 
    preg_match_all($avatarRule,$result,$avatar);
    $preg = '/<img.*?src=[\"|\']?(.*?)[\"|\']?\s.*?>/i';

    $titleRule = "/<div class=\"titleBox\".*?>.*?<\/div>/s"; 
    preg_match_all($titleRule,$result,$title);
    $titleRulea = "/<a href=\"([^<>]*)\">([^<>]*)<\/a>/s";

    // 简介
    $titleRuleb = "/<div class=\"descBox\">([^<>]*)<\/div>/s";
    preg_match_all($titleRuleb,$result,$content);
    $insert=[];
    $titleRulec = "/<div class=\"descBox\">([^<>]*)<\/div>/s";
    foreach ($content[0] as $k => $v) {
        preg_match($titleRulec, $v, $arrc);
        // 简介
        $arr['content']=trim($arrc[1]);

        // 图片
        preg_match($preg, $avatar[0][$k], $imgs);
        $arr['img']='https://mc.dfrobot.com.cn/'.$imgs[1];

        preg_match($titleRulea, $title[0][$k], $url_title);
        $arr['url']=str_replace('"  target="_blank','',$url_title[1]);// 链接地址
        $arr['title']=$url_title[2];// 标题
        $insert[]=$arr;
    }
    var_dump($insert);die;
}
function httpCurl($url, $params, $method = 'POST', $header = array(), $multi = false){
    date_default_timezone_set('PRC');
    $opts = array(
        CURLOPT_TIMEOUT        => 30,
        CURLOPT_RETURNTRANSFER => 1,
        CURLOPT_SSL_VERIFYPEER => false,
        CURLOPT_SSL_VERIFYHOST => false,
        CURLOPT_HTTPHEADER     => $header,
        CURLOPT_COOKIESESSION  => true,
        CURLOPT_FOLLOWLOCATION => 1,
        CURLOPT_COOKIE         =>session_name().'='.session_id(),
    );
    /* 根据请求类型设置特定参数 */
    switch(strtoupper($method)){
        case 'GET':
            // $opts[CURLOPT_URL] = $url . '?' . http_build_query($params);
            // 链接后拼接参数  &  非?
            $opts[CURLOPT_URL] = $url . '?' . http_build_query($params);
            break;
        case 'POST':
            //判断是否传输文件
            $params = $multi ? $params : http_build_query($params);
            $opts[CURLOPT_URL] = $url;
            $opts[CURLOPT_POST] = 1;
            $opts[CURLOPT_POSTFIELDS] = $params;
            break;
        default:
            echo '不支持的请求方式!';
    }
    /* 初始化并执行curl请求 */
    $ch = curl_init();
    curl_setopt_array($ch, $opts);
    $data  = curl_exec($ch);
    $error = curl_error($ch);
    curl_close($ch);
    // if($error) throw new Exception('请求发生错误:' . $error);
    return  $data;
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用PHP递归爬取整个网站,你可以按照以下步骤进行操作: 1. 创建一个爬虫函数,该函数接收一个URL参数,并执行以下操作: - 发送HTTP请求,获取网页的HTML内容。 - 解析HTML内容,提取你感兴趣的数据。 - 处理数据或保存数据数据库、文件等。 - 查找页面中的其他链接,并将它们添加到一个链接队列中,以便后续处理。 2. 创建一个链接队列,用于存储待爬取的链接。 3. 初始化链接队列,将初始URL添加到队列中。 4. 创建一个已访问的URL集合,用于避免重复访问相同的页面。 5. 使用一个循环来处理链接队列中的链接,直到队列为空: - 从链接队列中取出一个链接。 - 检查该链接是否已经访问过,如果是则跳过。 - 调用爬虫函数,传递该链接作为参数。 - 在爬虫函数中,将页面中提取到的其他链接添加到链接队列中。 - 将当前链接添加到已访问的URL集合中。 这样,你的爬虫将按照深度优先或广度优先的方式递归爬取整个网站。通过不断从链接队列中取出链接,并将新的链接添加到队列中,你可以遍历网站上的所有页面。 请注意,在编写爬虫时要遵守网站的爬虫规则和法律法规,以确保合法和合规的爬取行为。此外,为了避免陷入无限循环或爬取重复页面的问题,你可能需要添加一些去重机制或限制爬取深度的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值