爬取超链接的URL遇到的问题

最新推荐文章于 2022-06-27 19:16:08 发布

榴莲味的电池

最新推荐文章于 2022-06-27 19:16:08 发布

阅读量505

点赞数

分类专栏：互联网文章标签：爬取标签 URL re 正则表达式

本文链接：https://blog.csdn.net/qq_43115981/article/details/95995500

版权

互联网专栏收录该内容

9 篇文章 1 订阅

订阅专栏

# coding=utf-8
import re

content = '''
<a href = "http://news.baidu.com" name = "tj_trnews" class = "mnav">新闻</a>
<a href = "http://www.hao123.com" name = "tj_trhao123" class = "mnav"> hao123 </a>
<a href = "http://map.baidu.com" name = "tj_trmap" class = "mnav">地图</a>
<a href = "http://v.baidu.com" name = "tj_trvideo" class = "mnav">视频</a>
'''

res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res,content,re.I|re.S|re.M)
for url in urls:
    print(url)

这一段代码本来是爬取超链接的URL，是北航杨老师的著作上的代码案例，

但是对于python3.7版本，运行好像就没反应，求解应该怎么修改。

正确结果应该会输出content中的四个URL连接地址。

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

榴莲味的电池

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬取超链接的URL遇到的问题

# coding=utf-8import recontent = '''<a href = "http://news.baidu.com" name = "tj_trnews" class = "mnav">新闻</a><a href = "http://www.hao123.com" name = "tj_trhao123" class = "mnav"&...
复制链接

扫一扫