python读取HTML文本文件

遇到像下面的数据,里面是获取到的一些新闻资讯,但是不是以文本保存的,而是HTML。

想要直接读取HTML

import os
file_path = './data'
file_names = os.listdir(file_path)
i = 1
with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f:
    txt = f.read()

得到结果如下:

'\ufeff<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>地址识别试题</title></head><body><div><h1>深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”</h1><h3>翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。</h3><h2>极限运动,反而最不能冒风险</h2><h3>值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”</h3><h3>作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。</h3><h4 style="float:right">广州晚报实习生:李四报道</h4></div></body></html>'

除了正文还包含HTML代码格式,故需要进一步处理(使用第三方库html2text)

from html2text import html2text

html2text(txt)

处理后结果如下:

'\ufeff\n\n# 深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”\n\n###\n翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。\n\n## 极限运动,反而最不能冒风险\n\n###\n值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”\n\n###\n作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。\n\n#### 广州晚报实习生:李四报道\n\n'

接下来就可以按照文本进行分析了。

  • 9
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值