python3 文件解析模块(html,email等说明)


1. python能解析很多文件,如解析日志模块logging,解析邮件模块email,解析html模块的html/HTMLParser,解析表格xls等xls.doc等,这些解析过程都很相似,主要明白一下几点:

第一,先了解文件里面的格式,一般都会有关键字符串,以html为例子,<html>和</html>之间为整个html的信息,里面包括 头,在<head>和</head>之间。

<html>
 <head>
  <title> Python Html module </title>
  <meta name="Generator" content="EditPlus">
  <meta name="Author" content="Hongten">
  <meta name="Keywords" content="hongten,python">
  <meta name="Description" content="this blogs is about python">
 </head>

 <body>
    <table border = "1">
        <tr>
            <td>
            Author
            </td>
            <td>
            Hongten
            </td>
            <td>
            Mail
            </td>
            <td>
            hongtenzone@foxmail.com
            </td>
        </tr>
        <tr>
            <td>
            Blos
            </td>
            <td>
            <a href="http://www.blogs.com/hongten">http://www.blogs.com/hongten</a>
            </td>
            <td>
            QQ
            </td>
            <td>
            648719819
            </td>
        </tr>
    </table>
 </body>
</html>
第二,解析之前需要将文件的内容读取到一个容器里(如读取到变量contents里),然后将contents作为变量传递给python对应的解析模块的函数,模块里面的函数非常全,直接使用就可以解析文件了。

模块的就先介绍到这儿吧,其他的以后再补充,具体用到某些模块深入后,再详细分析。下一阶段该做一些练习了,实战才是硬道理。当然了,还不能让导师看见,哎,苦逼的课题,学东西还偷摸学,知识啊。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值