工作中需要区分网址是主站还是内容页,采用正则表达式
比如给定网址,检查其是否为主站,前提一级域名、二级域名、三级域名均为主站
url="http://sdad.dsdsf.dsfs.com/"
url1="sdad.dsdsf.dsfs.com/"
url2="https://sdad.dsdsf.dsfs.com/"
如下网址认定为内容页:
url="http://dfsdfs.sdfsd/safasd"
规则想定,开始编写测试函数
def maincheck(url):
mainreg=re.compile(r'^(https?://)?\w+(\.\w+)+/?$')
if mainreg.match(url):
print("主站")
else:
print("内容页")
进阶:
1、网址不能出现非法字符,比如空格
2、网址可以出现非字符数字,比如减号