php获取页面所有链接的正则表达式

最新推荐文章于 2021-11-24 18:03:37 发布

weixin_33708432

最新推荐文章于 2021-11-24 18:03:37 发布

阅读量154

点赞数

文章标签： python php

php获取页面所有链接的正则表达式

$pattern = '/<a(?:.*?)href="(((?:http(?:s?):\/\/)?([^\"\/]+))?(?:[^\"]*))"(?:[^>]*?)>([^<]*?)<\/a>/i';
preg_match_all($pattern, $data, $links);
$links[0]是所有<a>标签。
$links[1]是所有href。
$links[2]是所有带http(s)://链接。
$links[3]是所有域名，如:www.cnblogs.com。
$links[4]是所有a标签内容。
直接获取<a>标签：$pattern = '/<a.*?<\/a>/i';
仅获取href数据：$pattern = '/<a(?:.*?)href=[\'"]([^\"\']*)[\'"][^<]*?<\/a>/i';        //仅href

单双引号，href前换行，href后等号前后夹杂空格，a标签内嵌标签等一堆情况解决方案：
$pattern = '/<a(?:[\s\S]*?)href\s*?=\s*?[\'"](((?:http(?:s?):\/\/)?([^\"\'\/]+))?(?:[^\"\']*))[\'"](?:[^>]*?)>([\s\S]*?)<\/a>/i';

演示网址：phpParseLinks

修改：上面pattern中新增?，红色标记。修复无http://与域名情况。

weixin_33708432

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_33708432 CSDN认证博客专家 CSDN认证企业博客

码龄9年

141: 原创

-: 周排名

140万+: 总排名

122万+: 访问

: 等级

7166: 积分

5494: 粉丝

252: 获赞

14: 评论

1318: 收藏

私信

关注

热门文章

最新评论

Mac安装scrapy并创建项目
weixin_50137714: bogon:~ chenjiaxin$ pip3 --version pip 9.0.1 from /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages (python 3.5) bogon:~ chenjiaxin$ pip3 install Scrapy Collecting Scrapy Could not fetch URL https://pypi.python.org/simple/scrapy/: There was a problem confirming the ssl certificate: [SSL: TLSV1_ALERT_PROTOCOL_VERSION] tlsv1 alert protocol version (_ssl.c:720) - skipping Could not find a version that satisfies the requirement Scrapy (from versions: ) No matching distribution found for Scrapy bogon:~ chenjiaxin$ scrapy -bash: scrapy: command not found 你好我想咨询下为什么我想查看版本号的时候出现了not found. 小白中的小白，请手下留情
扫地机器人的模拟程序 (1)
m0_64605326: 你好，可以联系你吗？我们要开发机器人扫地机，我们可以合作，我联系电话13996744426张先生
在VS2013中查看C/C++预处理后的文件
Tisfy: 写文章不易，继续加油
【C语言】二维指针做形参
Avon_special: 太感谢了，查了半天终于找到有用的了
WPF学习笔记：（一）数据绑定与DataContext
sas2022: 学到了，学到了，谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。