正则表达式匹配url的一种思路

背景是是搜集一类网站的url。可以在几个网站中找到相关链接。一个个打开复制太麻烦,于是就考虑在源代码中提取出其中的url。

于是将页面源代码保存到url.txt文件中后,通过如下脚本通过正则表达式过滤出其中的url。

#! /usr/bin/perl
use warnings;
@strs=`cat ./url.txt`;
foreach (@strs){
	if(/(https?.*?\.(:?cn\b|com\b|net\b|org\b|gov\b)(?!\.))/)
		{print "$1\n";}
}
通过观察,页面源码中的url都含有一下特点。

1.http或者https开头。(这个特别棒,省了不少事)

2.中间是一段任意字符串

3.结尾处是知名的顶级域


然后写出正则表达式如下

(https?.*?\.(:?cn\b|com\b|net\b|org\b|gov\b)(?!\.))

详细解释下:

http:先是匹配http

s? :可有可无的s

.*? :以非贪婪的模式匹配任意长度的任意字符。 “.''表示任意字符,” *?“表示非贪婪模式匹配任意长度。如果使用贪婪模式,会出现很多意外情况。

\. :匹配点符号,因为"."在正则中表示任意字符,所以想要匹配”."本身需要用”\“进行转义

(:? ) :其实就是简单的括号,改变下优先级,加上”:?“ 是以为perl中会将()内的匹配到的字符串存储到相应变量中,而加上(:?)则不会储存。

cn\b|com\b :匹配不在字符串中间的cn或者com。之后的net,org,gov也都一样。

(?!\.):这是个零宽断言,就是说前面的cn,com字符串后面没有点。这是为了避免www.ujn.edu.cn这样的,只匹配出www.ujn.edu,丢掉后面的cn。




网上有跟多匹配各种类型的url的表达式,小弟才疏学浅,大部分都看不懂,自己写个简简单单的,符合自己要求的随便用用,需要的拿去。求别喷。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值