使用python解析抽取url中各级域名信息
又是周五了,又有饭局了…. 大家在分析日志及数据分析的时候,会遇到一些url抽取域名信息的需求。虽然urlparse可以把所有的域名给提取出来,但是不能精确到一级域名,二级域名,x级域名。
下面是我封装的一个小模块,性能还可以…至于代码实现也比较的简单,就是预先加载一些常用的域名的后缀,然后用re正则来模糊匹配。
项目名字, ExtractLevelDomain
功能介绍, 通过URL抽取各层各级的域名(一级域名,二级域名….) . 这模块本来是用来分析日志及数据分析的.
pypi install
pip install ExtractLevelDomain
source install
git clone https://github.com/rfyiamcool/ExtractLevelDomain.git
cd ExtractLevelDomain
python setup.py install
Usage Document:
import ExtractLevelDomain
filter = ExtractLevelDomain.ExtractLevelDomain()
#普通抽取域名,默认是最多匹配
print filter.parse_url('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc')
#parse_url_level可以控制level级,可接收的参数两种参数 1 2 3 或"*"
print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=2)
#set_level设置level级别
filter.set_level(1)
print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=1)
#现实Level级别
print filter.level
END….
大家觉得文章对你有些作用!
如果想赏钱,可以用微信扫描下面的二维码,感谢!
另外再次标注博客原地址 xiaorui.cc