Python 正则表达式提取URL中的Host

正则表达式:

(?xi)\A
[a-z][a-z0-9+\-.]*://                                # Scheme
([a-z0-9\-._~%!$&'()*+,;=]+@)?                       # User
([a-z0-9\-._~%]+                                     # Named or IPv4 host
|\[[a-z0-9\-._~%!$&'()*+,;=:]+\])                    # IPv6+ host

Python代码:

import re

subject = 'http://www.rgexcook.com'

reobj = re.compile(r"""(?xi)\A
[a-z][a-z0-9+\-.]*://                                # Scheme
([a-z0-9\-._~%!$&'()*+,;=]+@)?                       # User
([a-z0-9\-._~%]+                                     # Named or IPv4 host
|\[[a-z0-9\-._~%!$&'()*+,;=:]+\])                    # IPv6+ host
""")
match = reobj.search(subject)
if match:
    print match.group(2)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: Python正则表达式可以用于匹配网页的特定模式或格式。通过使用re模块的函数,例如re.search()、re.match()和re.findall(),可以在网页文本搜索并提取所需的内容。正则表达式的模式可以根据具体需求进行定义,例如匹配特定的URL、邮箱、手机号码等。在匹配网页URL时,可以使用正则表达式来筛选出URL的特定部分,比如匹配URLhost和port等信息。引用的代码示例展示了如何使用正则表达式从给定的URL获取host和port信息。通过定义合适的正则表达式模式,可以从大量的网页文本提取符合特定格式的URL123 #### 引用[.reference_title] - *1* *2* [Python爬虫之使用正则表达式匹配网页内容](https://blog.csdn.net/sinat_34231101/article/details/103814460)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}} ] [.reference_item] - *3* [Python正则表达式(网址正则/超链接正则)](https://blog.csdn.net/weixin_39517298/article/details/117669351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值