python 提取网页源码中注释内容非常规方法

如下:

<!-- <span class="flag">体验新模版</span> -->

如果我们需要提取<!--   -->中的内容,通过BeautifulSoup方法会直接忽略<!--   -->中的内容

这时我们可以对网页源码作替换处理,将<!-- 字符串全部替换成空

res3 = requests.get(url,headers=headers,timeout=(10,60)).content

html1 = res3
html =eval(repr(html1 ).replace('<!-- ', ''))  #此句为替换源码中网页注释部分
soup = BeautifulSoup(html, 'html.parser')

这样通过BeautifulSoup方法去查找 span class="flag"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值