python xml解析html_python解析html/xml

最新推荐文章于 2024-02-11 21:22:44 发布

施眠药

最新推荐文章于 2024-02-11 21:22:44 发布

阅读量288

点赞数

文章标签： python xml解析html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34646207/article/details/113964801

版权

解析html

from HTMLParser import HTMLParser

import sys

class TestParser(HTMLParser):

def __init__(self):

self.title = ''

self.readingtitle = 0

self.body = ''

self.readingbody = 0

HTMLParser.__init__(self)

def handle_starttag(self, tag, attrs):

if self.readingbody:

self.body += ''

if tag == 'title':

self.readingtitle = 1

elif tag == 'body':

self.readingbody = 1

def handle_data(self, data):

if self.readingtitle:

self.title += data

elif self.readingbody:

self.body += data

def handle_endtag(self, tag):

if tag == 'title':

self.readingtitle = 0

elif tag == 'body':

self.readingbody = 0

if self.readingbody:

self.body += ''

def gettitle(self):

return self.title

def getbody(self):

return self.body

# testparser.py test.html

#fd = open(sys.argv[1])

fd = open("test.html");

tp = TestParser()

tp.feed(fd.read())

print "Title is:", tp.gettitle()

print "Body is:", tp.getbody()

对于不严格的html(比如缺少关闭tag)，可以使用TidyLib。

Document Title

This is a text

输出

>>>

Title is: Document Title

Body is:

This is a text

解析xml

from xml.dom import minidom, Node

import sys

def scanNode(node, level = 0):

msg = node.__class__.__name__

if node.nodeType == Node.ELEMENT_NODE:

msg += ", tag: " + node.tagName

print level, msg

if node.hasChildNodes:

for child in node.childNodes:

scanNode(child, level + 1)

# testparser.py test.xml

doc = minidom.parse("test.xml");

scanNode(doc)test.xml

fengrufeitun

12

输出

>>>

0 Document

1 Element, tag: books

2 Text

2 Element, tag: book

3 Text

3 Element, tag: name

4 Text

3 Text

3 Element, tag: price

4 Text

3 Text

2 Text

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python xml解析html_python解析html/xml

解析htmlfrom HTMLParser import HTMLParserimport sysclass TestParser(HTMLParser):def __init__(self):self.title = ''self.readingtitle = 0self.body = ''self.readingbody = 0HTMLParser.__init__(self)def hand...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。