python解析html的库_用python解析html

python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。他们的实现方法不通,但功能差不多。这三个库中 提供解析html的类都是基类,本身并不做具体的工作。他们在发现的元件后(如标签、注释、声名等),会调用相应的函数,这些函数必须重载,因为基类中不 作处理。

比如:

"""

Advice

The IETF admonishes:

Be strict in what you send.

"""

如果对这个数据做处理,当检测到标签时,对于HTMLParser,会调用handle_starttag函数。

下面具体介绍下几个库

1、HTMLParser

#------------------ HTMLParser_stack.py ------------------#

#-- coding: GBK --

import HTMLParser,sys,os,string

html = """

Advice

The IETF admonishes:

Be strict in what you send.

"""

tagstack = []

class ShowStructure(HTMLParser.HTMLParser):

def handle_starttag(self, tag, attrs): tagstack.append(tag)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值