HTMLParser python usage

最新推荐文章于 2024-04-22 11:10:18 发布

robert_zhai

最新推荐文章于 2024-04-22 11:10:18 发布

阅读量559

点赞数

分类专栏： python

python 专栏收录该内容

63 篇文章 0 订阅

订阅专栏

'''
Created on 2013-12-2
http://cloudaice.com/yong-pythonde-htmlparserfen-xi-htmlye-mian/

@author: Administrator
'''
from HTMLParser import HTMLParser

import urllib
import sys

class ParseLinks(HTMLParser):

def __init__(self):
HTMLParser.__init__(self)
self.data = []
self.href=0
self.linkname=''

def handle_starttag(self, tag,attrs):

if tag == 'a':
for name,value in attrs:
if name == 'href':
self.href =1


def handle_data(self, data):
if self.href :
self.linkname += data


def handle_endtag(self, tag):
if tag == 'a':
self.linkname = ''.join(self.linkname.split())
self.linkname = self.linkname.strip()

if self.linkname:
self.data.append(self.linkname)
self.linkname = ''
self.href = 0

def getresult(self):
for value in self.data:
print value


if __name__ == "__main__":
MyParser = ParseLinks()
MyParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
MyParser.getresult()

MyParser.close()

上面的解析实现了下面的功能，还是正则比较方便

p = re.compile(r'<a.*?>(.*?)</a>', re.I| re.M)
match = p.findall(html)
print match

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

robert_zhai

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTMLParser python usage

'''Created on 2013-12-2@author: Administrator'''from HTMLParser import HTMLParserimport urllibimport sysclass ParseLinks(HTMLParser): def __init__(self):
复制链接

扫一扫