def extr():
b=f.splitlines()
list=[]
x=1
for line in b:
if line.split():
list.append(line)
res='\n'.join(list)
return res
发现个问题,有的网页换行但是去不掉。用去掉'/n'的方法根本不行。例如
f=''' <li><a href="#">首页</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">财务管理</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">经济法</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">中级会计实务</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">工作年限</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">划分标注</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">考点汇总</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">历年真题</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">重点题库</a></li>
<li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">考点变化</a></li>'''
lines=f.split('/n')
print(lines)
list_e=[]
for line in lines:
line = line.strip()
list_e=list_e.append(line)
得到一个结果
[' <li><a href="#">首页</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">财务管理</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">经济法</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">中级会计实务</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">工作年限</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">划分标注</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">考点汇总</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">历年真题</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">重点题库</a></li>\n\n <li><a href="//www.skwjg.com/zhongjikuaijishi.html#bdpc3" target="_blank">考点变化</a></li>']
最终代码
def extr(f):
b=f.splitlines()
list=[]
for line in b:
if line.split():
list.append(line)
res='\n'.join(list)
return res
用splitlines() 分开行,然后用split() 检测空行,空行跳过,最后用'/n'.join() 形成文章