正则表达式处理html实例(Perl实现)

本文介绍了如何使用Perl进行HTML处理,包括提取HTML标签、解析<a>标签中的URL和链接文本,以及校验和分解HTTP URL为主机名和路径。提供了具体的正则表达式实例。
摘要由CSDN通过智能技术生成

1.Html中Tag提取

<("[^"]*"|'[^']*'|[^'">])*>

2.提取<a></a>标签中的url和链接文本

while ($Html =~ m{a\b([^>]+)>(.*?)</a>}ig)
{
	my $Guts = $1;
	my $Link = $2;
	if ($Guts =~ m{
				\b HREF	#href属性
				\s* = \s*	#两头可能出现空白符
				(?:			#其值为
				"([^"]*)"	#双引号字符串
				|
				'([^']*)'	#单引号字符串
				|
				([^'">\s]+)	#或者是其他文本
				)
				}xi)
		{
			my $Url = $+;
			print "$Url with link text: $Link\n";
		}
}

3.校验HTTP URL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值