大家好,之前我在写程序的时候遇到一个需求,就是获取到一段源代码
然后需要把这段源代码只显示文本,其他HTML代码全部清楚掉。
这种我们应该怎么办呢?
以下是我个人的方法,代码如下:
#coding:utf8
# 清除HTML所有格式并且 删除换行与回车等,只显示文本
import re
def HtmlFormat_Clear(content="你需要清除HTML格式的内容"):
dr = re.compile(r'<[^>]+>',re.S) #将正则表达式编辑成一个对像 意思是从<开始匹配,匹配所有不是>的内容,至到出现>为止
content = dr.sub('',content) #把所有<>之间的所有字符全替换为空
content=re.sub('n','',content) #去除换行
content=re.sub('s','',content) #去除空白字符 s是指空白,包括空格、换行、tab缩进等所有的空白 S刚好相反
content=re.sub(' ','',content) #去除空格
print content
# return content
if __name__=="__main__":
content="""<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
<b>所属公司:</b>深圳吉祥
</p>
<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
<b>从业经历:</b>10年
</p>
<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
<strong>擅长风格</strong>:现代简约,欧式,新中式,现代奢华,美式 ,地中海
</p>
<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
<strong>主要作品</strong>:公园大地 万科城别墅 星河时代 百合盛世洋房 保利上城
</p>
<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;">
<strong>设计理念</strong>:<span>设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化。</span>
</p>"""
HtmlFormat_Clear(content)
为了方便举例,我直接随便找了一段源代码,也就是content这段字符串
大家可以看一下运行后的效果:
![ffa542f15039691ab8209265ac71b22f.png](https://i-blog.csdnimg.cn/blog_migrate/5f0df73c97b43c0d919591a6a13acac5.jpeg)
如上图,运行之后得到了我们需要的文本文字如下:所属公司:深圳吉祥从业经历:10年擅长风格:现代简约,欧式,新中式,现代奢华,美式,地中海主要作品:公园大地万科城别墅星河时代百合盛世洋房保利上城设计理念:设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化。
其实代码非常简单,只用了大概五行代码搞定,python真的很方便,大家以后可以用我写好的,直接拿来调用,拿走不谢!
好了,今天就分享到这里,你学会了吗?
李亚涛简介-一个没有才华的python程序员,关注我学习更多python知识