引言
众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的技术开发者来完善
python的完美性。
未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来展开。
咳咳咳! 好像有点打广告的嫌疑了。
当前互联网信息共享时代,最重要的是什么?是数据。最有价值的是什么?是数据。最能直观体现技术水平的是什么?还是数据。
所以,今天我们要分享的是:如何来获取各个文件格式的文本信息。
普通文件的格式 一般分为: txt普通文本信息,doc word文档,html网页内容,excel表格数据,以及特殊的mht文件。
一,python处理html网页信息。
html类型的文本数据,内容是由前端代码书写的标签+文本数据的格式,可以直接在chrome浏览器打开,清楚 的展示出文本的格式。
python 获取html文件的内容和获取txt文件的方法相同,直接打开文件读取就可以了。
读取代码如下:
with open(html_path, "r", encoding="utf-8") as f:
file = f.read()
file 是html文件的文本内容。是一个网页标签的格式内容。
二,python处理excel表格信息。
python拥有直接操作excel表格的第三