按
我们在使用Python从文本中提取URL时,其实可以安装功能已经相对完善的第三方库urlextract,而不用自己费力不讨好去编写正则表达式。自己想法设法编写的正则表达式,结果在实际应用时却发现有的情况还是没有考虑到,导致提取出来的URL并不对。
使用帮助
提取URL
从文本Text with URLs. Let's have URL janlipovsky.cz as an example.
中提取janlipovsky.cz
from urlextract import URLExtract
extractor = URLExtract()
urls = extractor.find_urls("Text with URLs. Let's have URL janlipovsky.cz as an example.")
print(urls) # prints: ['janlipovsky.cz']