php 正则匹配 exec,PHP利用正则匹配 完成数据抓取

//抓取该页面的数据

$url = "http://xxxxxxx";

$curl = curl_init($url);

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($curl, CURLOPT_ENCODING, "gzip");

$contents = curl_exec($curl);

curl_close($curl);

$contents = mb_convert_encoding($contents, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5' );

$contents = \Helper\CFunctionHelper::DeleteHtml($contents);

if (!preg_match_all("@

@", $contents, $tables)) {

die("匹配表格失败");

}

//dd($tables[1][1]);

if (!preg_match_all("@

]+>(.*?)@", $tables[1][1], $tr)) {

die("匹配tr失败");

}

// var_dump($tr[1][0]);

// die();

$data = [];

foreach($tr[1] as $value){

$bonusData = strip_tags(str_replace('', '|', str_replace(" ", '', $value)));

$issue = 0;

$recommend = "";

$kaijiang = "";

$result = "";

try {

list($issue, $recommend, $kaijiang,$result) = explode('|', $bonusData);

} catch (\ErrorException $e) {

die("发生异常:".$e->getMessage());

}

array_push($data,['issue'=>$issue,'recommend'=>$recommend,'kaijiang'=>$kaijiang,'result'=>$result]);

}

dd($data);

/**

* 去掉html中的换行和空格

* @param type $str

* @return type

*/

public static function DeleteHtml($str)

{

$str = trim($str); //清除字符串两边的空格

$str = preg_replace("/\t/","",$str); //使用正则表达式替换内容,如:空格,换行,并将替换为空。

$str = preg_replace("/\r\n/","",$str);

$str = preg_replace("/\r/","",$str);

$str = preg_replace("/\n/","",$str);

$str = preg_replace("\n[^\

$str = preg_replace("/ /","",$str);

$str = preg_replace("/ /","",$str); //匹配html中的空格

return trim($str); //返回字符串

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值