1.Html中Tag提取
<("[^"]*"|'[^']*'|[^'">])*>
2.提取<a></a>标签中的url和链接文本
while ($Html =~ m{a\b([^>]+)>(.*?)</a>}ig)
{
my $Guts = $1;
my $Link = $2;
if ($Guts =~ m{
\b HREF #href属性
\s* = \s* #两头可能出现空白符
(?: #其值为
"([^"]*)" #双引号字符串
|
'([^']*)' #单引号字符串
|
([^'">\s]+) #或者是其他文本
)
}xi)
{
my $Url = $+;
print "$Url with link text: $Link\n";
}
}
3.校验HTTP URL