python url解析_使用python解析抽取url中各级域名信息

使用python解析抽取url中各级域名信息

又是周五了,又有饭局了….  大家在分析日志及数据分析的时候,会遇到一些url抽取域名信息的需求。虽然urlparse可以把所有的域名给提取出来,但是不能精确到一级域名,二级域名,x级域名。

下面是我封装的一个小模块,性能还可以…至于代码实现也比较的简单,就是预先加载一些常用的域名的后缀,然后用re正则来模糊匹配。

项目名字, ExtractLevelDomain

功能介绍, 通过URL抽取各层各级的域名(一级域名,二级域名….) . 这模块本来是用来分析日志及数据分析的.

pypi install

pip install ExtractLevelDomain

source install

git clone https://github.com/rfyiamcool/ExtractLevelDomain.git

cd ExtractLevelDomain

python setup.py install

Usage Document:

import ExtractLevelDomain

filter = ExtractLevelDomain.ExtractLevelDomain()

#普通抽取域名,默认是最多匹配

print filter.parse_url('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc')

#parse_url_level可以控制level级,可接收的参数两种参数 1 2 3 或"*"

print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=2)

#set_level设置level级别

filter.set_level(1)

print filter.parse_url_level('http://dmp.301.xiaorui.cc/redirect/xiaorui.cc',level=1)

#现实Level级别

print filter.level

END….

大家觉得文章对你有些作用!

如果想赏钱,可以用微信扫描下面的二维码,感谢!

另外再次标注博客原地址  xiaorui.cc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值