技术
tomshall
这个作者很懒,什么都没留下…
展开
-
python学习:HTML转换成doc
python学习:HTML转换成doc网页上的一些文章,因为有格式的原因,它们在网页上的源码都是带有html标签的,用css来进行描述。本文利用HTML Parser和docx两个模块,对网页进行解析并存储到word文档中。转换出来的格式相对还是有些粗糙,不喜勿喷。话不多说,直接上代码。class HTMLClient: #获取html网页源码 def GetPage(self, u原创 2015-09-20 10:26:48 · 10082 阅读 · 0 评论 -
python学习:网页解析
python学习:网页爬虫之前搜索的时候没有找对对应的python解析工具(beautifulsoap,XML DOM只能解析规整的xml格式无数据)。同时也想提升程序的运行效率,因此自己实现了一个可以根据HTML标签获取到网页元素的程序,这个程序是基于查找的形式对网页解析,没有对网页元素进行分类和归类。 程序基于python3.0,以上版本,分为三大块,webclient、html元素解析,具体原创 2015-09-20 00:18:30 · 676 阅读 · 0 评论