html 换行_李亚涛:清除HTML所有格式并且删除换行与回车,只显示文本

大家好,之前我在写程序的时候遇到一个需求,就是获取到一段源代码
然后需要把这段源代码只显示文本,其他HTML代码全部清楚掉。
这种我们应该怎么办呢?
以下是我个人的方法,代码如下:
#coding:utf8
# 清除HTML所有格式并且 删除换行与回车等,只显示文本
import re
def HtmlFormat_Clear(content="你需要清除HTML格式的内容"):
    dr = re.compile(r'<[^>]+>',re.S)  #将正则表达式编辑成一个对像  意思是从<开始匹配,匹配所有不是>的内容,至到出现>为止
    content = dr.sub('',content)  #把所有<>之间的所有字符全替换为空
    content=re.sub('n','',content)   #去除换行
    content=re.sub('s','',content)  #去除空白字符  s是指空白,包括空格、换行、tab缩进等所有的空白  S刚好相反
    content=re.sub('&nbsp;','',content)   #去除空格
    print content
    # return content
if __name__=="__main__":
    content="""<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
        <b>所属公司:</b>深圳吉祥
    </p>
    <p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
        <b>从业经历:</b>10年
    </p>
    <p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
        <strong>擅长风格</strong>:现代简约,欧式,新中式,现代奢华,美式 ,地中海
    </p>
    <p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
        <strong>主要作品</strong>:公园大地 万科城别墅 星河时代&nbsp; 百合盛世洋房 保利上城
    </p>
    <p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
        <strong>设计理念</strong>:<span>设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化。</span>
    </p>"""
    HtmlFormat_Clear(content)


为了方便举例,我直接随便找了一段源代码,也就是content这段字符串
大家可以看一下运行后的效果:

ffa542f15039691ab8209265ac71b22f.png


如上图,运行之后得到了我们需要的文本文字如下:所属公司:深圳吉祥从业经历:10年擅长风格:现代简约,欧式,新中式,现代奢华,美式,地中海主要作品:公园大地万科城别墅星河时代百合盛世洋房保利上城设计理念:设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化
其实代码非常简单,只用了大概五行代码搞定,python真的很方便,大家以后可以用我写好的,直接拿来调用,拿走不谢!
好了,今天就分享到这里,你学会了吗?
李亚涛简介-一个没有才华的python程序员,关注我学习更多python知识

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值