SGML(Standard Generalized Markup Language) 标准通用标记语言

可以理解SGML 为XML的前身,在80年代流行

如果要用sgmllib解析html,则要继承sgmllib.SGMLParser类,此类里的函数都是空的,用户需要重载它。这个类提供的功能是在特定情况下调用相应的函数。

比如当发现<html>标签时,如果并没有定义 start_html(self,attr)函数,则会调用unknown_starttag函数,具体怎么处理则根据用户。

sgml的标签是可以自定义的,比如自己定义了一个start_lala函数,则就会处理<lala>标签。

#coding=GBK
import sgmllib,sys,os,string
html = """<lala><head><title>Advice</title></head><body>
<p>The <a href="http://ietf.org" mce_href="http://ietf.org">IETF admonishes:
<i>Be strict in what you <b>send</b>.</i></a></p>
<form>
<input type=submit name='我'> 我 <input type=text name=start size=4></form>
</body></lala>
"""
tagstack = []
class ShowStructure(sgmllib.SGMLParser):
#    def handle_starttag(self, tag, method,attrs): tagstack.append(tag)
#    def handle_endtag(self, tag): tagstack.pop()
    def handle_data(self, data):
        if data.strip():
            for tag in tagstack: sys.stdout.write('/'+tag)
            sys.stdout.write(' >> %s/n' % data[:40].strip())

    def unknown_starttag(self,tag,attrs):
        print 'start tag:<'+tag+'>'
    def unknown_endtag(self,tag):
        print 'end tag:</'+tag+'>'
    def start_lala(self,attr):
        print 'lala tag found'
ShowStructure().feed(html)
 
如果定义了start_tag,没有定义handle_starttag 则执行start_tag
如果定义了start_tag,也定义了handle_starttag 则执行handle_starttag,start_tag不执行
如果只定义了handle_starttag,没有定义start_tag,则handle_starttag也不执行
结论:handle_starttag,和start_tag都是处理你指定的特殊tag的
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值