1. python能解析很多文件,如解析日志模块logging,解析邮件模块email,解析html模块的html/HTMLParser,解析表格xls等xls.doc等,这些解析过程都很相似,主要明白一下几点:
第一,先了解文件里面的格式,一般都会有关键字符串,以html为例子,<html>和</html>之间为整个html的信息,里面包括 头,在<head>和</head>之间。
<html> <head> <title> Python Html module </title> <meta name="Generator" content="EditPlus"> <meta name="Author" content="Hongten"> <meta name="Keywords" content="hongten,python"> <meta name="Description" content="this blogs is about python"> </head> <body> <table border = "1"> <tr> <td> Author </td> <td> Hongten </td> <td> Mail </td> <td> hongtenzone@foxmail.com </td> </tr> <tr> <td> Blos </td> <td> <a href="http://www.blogs.com/hongten">http://www.blogs.com/hongten</a> </td> <td> QQ </td> <td> 648719819 </td> </tr> </table> </body> </html>第二,解析之前需要将文件的内容读取到一个容器里(如读取到变量contents里),然后将contents作为变量传递给python对应的解析模块的函数,模块里面的函数非常全,直接使用就可以解析文件了。
模块的就先介绍到这儿吧,其他的以后再补充,具体用到某些模块深入后,再详细分析。下一阶段该做一些练习了,实战才是硬道理。当然了,还不能让导师看见,哎,苦逼的课题,学东西还偷摸学,知识啊。