php采集网站

<?php
namespace Home\Controller;
use Think\Controller;
class CollectionController extends Controller {
    public function Collection(){
        header("Content-Type: text/html;charset=utf-8"); 
        // 初始化一个 cURL 对象
        $curl = curl_init();
        // 设置你需要抓取的URL
        curl_setopt($curl, CURLOPT_URL, 'http://fenxiang.banguanshui.com/');
        // 设置header
//        curl_setopt($curl, CURLOPT_HEADER, 1);
        // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        // 运行cURL,请求网页
        $data = curl_exec($curl);
        // 关闭URL请求
        curl_close($curl);
        //$data是curl_exec返回的的值,即采集的目标内容
        preg_match_all('/<span class="username" (.*)>(.*)<\/span>/isU',$data, $asd, PREG_SET_ORDER);
        preg_match_all('/<h3><a href="(.*)" (.*)>(.*)<\/a>/',$data, $out, PREG_SET_ORDER);
        $row =array();
        $i = 0;
        foreach($out as $key => $value){
            //此处$value是数组,同时记录找到带匹配字符的整句和单独匹配的字符
            $row[1] = 'http://fenxiang.banguanshui.com/'.$value[1];
            $row[2] = $value[3];
//            foreach($asd as $key => $value){
//                $row[3] = $value[2];
//            } 
            $row[3] = $asd[$i][2];
            $i++;
//               dump($row);exit;
            $collection = M('collection');
                $bata['url'] = $row[1];
                $seke = $bata['url'];
               
               
//                $sdsa = $bata['title'];
//                print_r($seke);exit;
//                $blog1 = $collection->where(array('url' => $seke))->find();
                $blog = $collection->where(array('url' =>$seke))->find();
//             echo strlen($seke);exit;
//             print_r($blog1);exit;
             if($bata['url'] != $blog['url']){
                  $bata['title'] = $row[2];
                  $bata['author'] = $row[3];
                  $cent = $collection->add($bata);
                  echo '添加成功';
                   dump($cent);
             }
             else{
                 echo '添加失败';
             }
            
        } 
            
    }
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PHP采集Lazada是一种使用PHP编程语言来获取Lazada网站上的数据的方法。Lazada是一个知名的电子商务平台,它提供各种产品的在线购物服务。使用PHP采集Lazada的目的是为了获取Lazada上的商品信息,如商品名称、价格、描述、评价等。 PHP采集Lazada的步骤如下: 1. 首先,需要使用PHP的curl函数建立一个与Lazada网站的连接。curl函数可以模拟浏览器,发送HTTP请求并接收响应。 2. 通过curl函数发送HTTP请求获取Lazada网站的HTML源码。可以通过设置curl选项来指定请求的URL和其他必要参数。 3. 使用PHP的正则表达式函数或DOM解析器来解析HTML源码,提取感兴趣的数据。例如,可以使用正则表达式来匹配商品名称和价格的标签,并从中提取相关信息。 4. 对获取的数据进行处理和存储。可以将数据存储到数据库、Excel文档或其他格式中,以便后续使用。 5. 应该添加错误处理机制,以处理可能出现的错误,如网络连接故障、HTML解析错误等。 6. 根据需要,可以添加其他功能,如自动化采集、分页浏览等。 7. 需要定时运行采集脚本,以保持数据的最新性。 总之,PHP采集Lazada是一种利用PHP编程语言来从Lazada网站上获取数据的方法。通过建立与Lazada的连接,发送HTTP请求并解析响应,我们可以获取Lazada上的商品信息,并对其进行处理和存储。这种方法可以帮助我们快速获取所需的数据,并用于后续分析、使用或展示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值