python3 去除html标签,Python3正则去掉HTML标签(示例代码)

最新推荐文章于 2022-12-20 10:32:28 发布

帅兔挽月

最新推荐文章于 2022-12-20 10:32:28 发布

阅读量535

点赞数

文章标签： python3 去除html标签

Python3正则去掉HTML标签

1.引用一段代码

import re

html = ‘

目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性
但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?

‘

reg = re.compile(‘]*>‘)

print(reg.sub(‘‘,html))

2.重点

reg = re.compile(‘]*>‘)

print(reg.sub(‘‘,html))

3.实例

开始

import requests

import re

from bs4 import BeautifulSoup

retxt=open(‘test.log‘,‘r‘)

for x in range(250,999):

#rurl=rurl.strip(‘

‘)

url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)

#print(url)

try:

response=requests.get(url,timeout=1).text

#print(response)

soup=BeautifulSoup(response,features="lxml")

result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})

print(‘学校：{0}‘.format(result))

except requests.exceptions.InvalidURL:

pass

except requests.exceptions.ConnectionError:

pass

except requests.exceptions.ReadTimeout:

pass

输出

学校：[

杭州师范大学

]

学校：[

去除标签之后

import requests

import re

from bs4 import BeautifulSoup

#retxt=open(‘test.log‘,‘r‘)

for x in range(250,999):

#rurl=rurl.strip(‘

‘)

url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)

#print(url)

try:

response=requests.get(url,timeout=1).text

#print(response)

soup=BeautifulSoup(response,features="lxml")

result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})

reg=re.compile(‘]*>‘,re.S)

print(‘学校：{0}‘.format(reg.sub(‘‘,str(result))))

except requests.exceptions.InvalidURL:

pass

except requests.exceptions.ConnectionError:

pass

except requests.exceptions.ReadTimeout:

pass

输出

学校：[]

学校：[

上海电子信息职业技术学院

]

学校：[]

学校：[

超星大学

帅兔挽月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3 去除html标签,Python3正则去掉HTML标签(示例代码)

Python3正则去掉HTML标签1.引用一段代码import rehtml = ‘目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?‘reg = re.compile(‘]*>‘)print(reg.sub(‘‘,html))2.重点reg ...
复制链接

扫一扫

python3 去除html标签,Python3正则去掉HTML标签(示例代码)

“相关推荐”对你有帮助么？