使用HTMLParser去除HTML源文件中的标签和属性

最新推荐文章于 2023-04-27 15:32:38 发布

weixin_30526593

最新推荐文章于 2023-04-27 15:32:38 发布

阅读量184

点赞数

文章标签：数据库

原文链接：http://www.cnblogs.com/pylemon/archive/2011/11/23/2260761.html

版权

使用HTMLParser去除HTML源文件中的标签和属性

在一些情况下，比如输出一片文章的摘要，前面的若干个字，但是存储在数据库中的文章又偏偏是带有格式的HTML。这种情况下，可以使用下面这种方法将HTML中所有的标签剔除干净。

from HTMLParser import HTMLParser

def strip_tags(html):
    html=html.strip()
    html=html.strip("\n")
    result=[]
    parse=HTMLParser()
    parse.handle_data=result.append
    parse.feed(html)
    parse.close()
return "".join(result)

if __name__ == "__main__":
    html = """<a name="val">123</a><input type="text" name="afdsa" /><b><br><u>fffffff<br></u></b><div style="text-align: left;"><b><u>fdafd</u></b><br><br></div>
"""
print strip_tags(html)

转载于:https://www.cnblogs.com/pylemon/archive/2011/11/23/2260761.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30526593

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用HTMLParser去除HTML源文件中的标签和属性

使用HTMLParser去除HTML源文件中的标签和属性在一些情况下，比如输出一片文章的摘要，前面的若干个字，但是存储在数据库中的文章又偏偏是带有格式的HTML。这种情况下，可以使用下面这种方法将HTML中所有的标签剔除干净。from HTMLParser import HTMLParserdef strip_tags(html): html=html.strip() h...
复制链接

扫一扫