html取元素的文本,解析HTML以获取元素内的文本

最新推荐文章于 2022-12-04 20:04:21 发布

weixin_39836530

最新推荐文章于 2022-12-04 20:04:21 发布

阅读量481

点赞数

文章标签： html取元素的文本

LISTERINE..

38

此代码取自python docs

from HTMLParser import HTMLParser

# create a subclass and override the handler methods

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):

print "Encountered a start tag:", tag

def handle_endtag(self, tag):

print "Encountered an end tag :", tag

def handle_data(self, data):

print "Encountered some data :", data

# instantiate the parser and fed it some HTML

parser = MyHTMLParser()

parser.feed('

Test'

'

Parse me!

')

结果如下:

Encountered a start tag: html

Encountered a start tag: head

Encountered a start tag: title

Encountered some data : Test

Encountered an end tag : title

Encountered an end tag : head

Encountered a start tag: body

Encountered a start tag: h1

Encountered some data : Parse me!

Encountered an end tag : h1

Encountered an end tag : body

Encountered an end tag : html

使用它并查看HTMLParser中的代码我想出了这个:

class myhtmlparser(HTMLParser):

def __init__(self):

self.reset()

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

def handle_starttag(self, tag, attrs):

self.NEWTAGS.append(tag)

self.NEWATTRS.append(attrs)

def handle_data(self, data):

self.HTMLDATA.append(data)

def clean(self):

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

你可以像这样使用它:

from HTMLParser import HTMLParser

pstring = source_code = """Martin Elias"""

class myhtmlparser(HTMLParser):

def __init__(self):

self.reset()

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

def handle_starttag(self, tag, attrs):

self.NEWTAGS.append(tag)

self.NEWATTRS.append(attrs)

def handle_data(self, data):

self.HTMLDATA.append(data)

def clean(self):

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

parser = myhtmlparser()

parser.feed(pstring)

# Extract data from parser

tags = parser.NEWTAGS

attrs = parser.NEWATTRS

data = parser.HTMLDATA

# Clean the parser

parser.clean()

# Print out our data

print tags

print attrs

print data

现在,您应该能够轻松地从这些列表中提取数据.我希望这有帮助!

weixin_39836530

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html取元素的文本,解析HTML以获取元素内的文本

LISTERINE..38此代码取自python docsfrom HTMLParser import HTMLParser# create a subclass and override the handler methodsclass MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print "Encountere...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。