CURL抓取网页内容并用正则提取。

原创 2013年01月14日 17:58:22
<?php
header("Content-Type:text/html;charset=UTF-8");
/*
 * CURL网页抓取
 * */
class Curl{
    var $setopt;
    var $data;
    function __construct($url){
        $this->setopt =array(
    CURLOPT_URL => "$url",
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true,
);
    }
    function exec(){
        $ch = curl_init();
        curl_setopt_array($ch,$this->setopt);
        $this->data = curl_exec($ch);
        curl_close($ch);
        return $this->data;
    }
};
/*
 * 抓取回来的网页进行正则查找
 * id是按ID查找内容
 * tagName是标签查找
 * className按类名查找*/
class Preg{
    function id($data,$id){
        preg_match('/<(.*)\s*id=.*('.$id.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);
        return $str[0];
    }
    
    function tagName($data,$tag){
        preg_match('/<'.$tag.'.*>\s*(.*)\s*<\/'.$tag.'>/',$data,$str);
        return $str[1];
    }
    
    function className($data,$class){
        preg_match('/<(.*)\s*class=.*('.$class.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);
        return $str[0];
    }
    
}

$c = new Curl('www.corker.cc');
$data = $c->exec();
$data = @iconv("gb2312", "utf-8",$data);
$preg = new Preg();
echo $preg->tagName($data,'title');

?>

liunx 命令 文件内容查找 Linux下grep显示前后几行信息 CURL 命令使用

从根目录开始查找所有扩展名为.log的文本文件,并找出包含”ERROR”的行 find / -type f -name "*.log" | xargs grep "ERROR" 例子:从当前目录开始查...
  • peter123asd
  • peter123asd
  • 2016年01月26日 16:25
  • 848

使用cURL获取网页内容

cURL可以使用URL的语法模拟浏览器来传输数据,   因为它是模拟浏览器,因此它同样支持多种协议,   FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DIC...
  • wlzx120
  • wlzx120
  • 2015年09月18日 10:59
  • 7020

使用 CURL+正则匹配获取网页信息

思路: 首先用CURL一套操作获取网页所有内容,之后用正则去匹配对应页面上的html标签。 以下是简单的实现,没写类。上传这篇文章仅供学习记录。//调用例子 date_default_ti...
  • userName222
  • userName222
  • 2017年10月24日 17:33
  • 434

curl获取网页内容

最近几天,有朋友叫我写个抓取页面链接的代码,可是我还是很懒,慢
  • zjr11092
  • zjr11092
  • 2014年04月19日 18:40
  • 1384

CURL抓取网页内容并用正则提取。

[php] view plaincopy header("Content-Type:text/html;charset=UTF-8");   /*   * CUR...
  • u011630575
  • u011630575
  • 2015年09月05日 10:36
  • 2593

Linux 抓取网页方式(curl+wget)

Linux抓取网页,简单方法是直接通过 curl 或 wget 两种命令。curl 和 wget 命令,目前已经支持Linux和Windows平台,后续将介绍。curl 和 wget支持协议curl ...
  • sunboy_2050
  • sunboy_2050
  • 2012年06月02日 23:38
  • 47384

PHP cURL库函数抓取页面内容

cURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议和选项,如HTTP、FTP、TELNET等,能提供 URL 请求相关的各种细节信息。最爽的是,PHP 也支持 cURL 库。 ...
  • chengshaolei2012
  • chengshaolei2012
  • 2017年05月24日 12:10
  • 2430

使用curl模拟登陆抓取网页指定内容

步骤: 1、获取要提交的表单元素 通过审查元素等工具,录一下登陆的过程,获取表单元素。当然也可以通过查看源代码找到需要提交的表单元素。 2、设置curl参数 知识点: 1、curl的使用 2、验证...
  • wzxsjdt
  • wzxsjdt
  • 2016年01月09日 10:26
  • 2863

curl获取网页内容

最近几天,有朋友叫我写个抓取页面链接的代码,可是我还是很懒,慢
  • zjr11092
  • zjr11092
  • 2014年04月19日 18:40
  • 1384

使用cURL获取网页内容

cURL可以使用URL的语法模拟浏览器来传输数据,   因为它是模拟浏览器,因此它同样支持多种协议,   FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DIC...
  • wlzx120
  • wlzx120
  • 2015年09月18日 10:59
  • 7020
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:CURL抓取网页内容并用正则提取。
举报原因:
原因补充:

(最多只允许输入30个字)