php 正则抓取页面内容_php 正则表达式抓取网页内容

最新推荐文章于 2022-07-06 16:49:06 发布

许蒋氏

最新推荐文章于 2022-07-06 16:49:06 发布

阅读量204

点赞数

文章标签： php 正则抓取页面内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32342535/article/details/115092763

版权

昨天有個朋友在問我說，php怎麼抓取網頁某個div區塊的內容。像funp推推王那樣每次推文都會顯示文章內的圖片，提供縮圖撰擇，又是怎麼做到的？其實這語法出乎意料的簡短…

1.

取得指定網頁內的所有圖片：測試

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/');

//取得所有img標籤，並儲存至二維陣列match

preg_match_all('#]*>#i',

$text, $match);

//印出match

print_r($match);

?>

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/');

//取得所有img標籤，並儲存至二維陣列match

preg_match_all('#]*>#i', $text, $match);

//印出match

print_r($match);

?>

2.

取得指定網頁內的第一張圖片：測試

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/');

//取得第一個img標籤，並儲存至陣列match(regex語法與上述同義)

preg_match('/]*>/Ui',

$text, $match);

//印出match

print_r($match);

?>

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/');

//取得第一個img標籤，並儲存至陣列match(regex語法與上述同義)

preg_match('/]*>/Ui', $text, $match);

//印出match

print_r($match);

?>

3.

取得指定網頁內的特定div區塊(藉由id判斷)：測試

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/2009/01/seo化的關鍵字廣告連結/');

//去除換行及空白字元(序列化內容才需使用)

//$text=str_replace(array("\r","\n","\t","\s"), '',

$text);

//取出div標籤且id為PostContent的內容，並儲存至陣列match

preg_match('/

]*id="PostContent"[^>]*>(.*?)

/si',$text,$match);

//印出match[0]

print($match[0]);

?>

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/2009/01/seo化的關鍵字廣告連結/');

//去除換行及空白字元(序列化內容才需使用)

//$text=str_replace(array("\r","\n","\t","\s"), '', $text);

//取出div標籤且id為PostContent的內容，並儲存至陣列match

preg_match('/

]*id="PostContent"[^>]*>(.*?) /si',$text,$match);

//印出match[0]

print($match[0]);

?>

4.

上述2及3的結合：測試

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/2009/01/seo化的關鍵字廣告連結/');

//取出div標籤且id為PostContent的內容，並儲存至陣列match

preg_match('/

]*id="PostContent"[^>]*>(.*?)

/si',$text,$match);

//取得第一個img標籤，並儲存至陣列match2

preg_match('/]*>/Ui',

$match[0], $match2);

//印出match2[0]

print_r($match2[0]);

?>

//取得指定位址的內容，並儲存至text

$text=file_get_contents('http://andy.diimii.com/2009/01/seo化的關鍵字廣告連結/');

//取出div標籤且id為PostContent的內容，並儲存至陣列match

preg_match('/

]*id="PostContent"[^>]*>(.*?) /si',$text,$match);

//取得第一個img標籤，並儲存至陣列match2

preg_match('/]*>/Ui', $match[0], $match2);

//印出match2[0]

print_r($match2[0]);

?>

後記：用正規表達式Regex來做真的很方便，但老實說我規則常會忘掉，記錄一下幾篇文章好了(Regular Expression

Details | PCRE Functions | Introduction to PHP

Regex)

From[http://xiaoniba.net/html/jiaocheng/PHPjiaocheng/2009/0428/464.html]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php 正则抓取页面内容_php 正则表达式抓取网页内容

昨天有個朋友在問我說，php怎麼抓取網頁某個div區塊的內容。像funp推推王那樣每次推文都會顯示文章內的圖片，提供縮圖撰擇，又是怎麼做到的？其實這語法出乎意料的簡短…1.取得指定網頁內的所有圖片：測試//取得指定位址的內容，並儲存至text$text=file_get_contents('http://andy.diimii.com/');//取得所有img標籤，並儲存至二維陣列matchpre...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。