python处理HTML和XML

处理HTML

  • HTMLParser模块的HTMLParser类

       在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时,首先应继承HTMLParser模块中的HTMLParser类,然后重载相关的处理方法。

    • feed(data)

其中data为传递的数据

当向HTMLParser对象传递数据后,其就开始对数据进行处理

    • colse()

强制处理feed方法存在在缓冲区中的数据

    • reset()

重新设置对象实例

    • getpos()

获得当前处理的行号和偏移位置

    • handle_starttag(tag,attrs)

其中tag:HTMLParser遇到的标记

attrs:标记的属性

遇到某些标记或者数据时调用

    • handle_startendtag(tag,attrs)

其中tag:HTMLParser遇到的标记

arrts:标记的属性

当HTMLParser遇到类似于<br/>的标记时调用

    • handle_endtag(tag)

其中tag:HTMLParser遇到的结束标记

当HTMLParser遇到结束标记时调用

    • handle_data(data)

其中:data为标记间的数据

处理标记间的数据

    • hand_comment(data)

其中:data为注释内容

遇到HTML中的注释

htmllib模块的HTMLParser类

  • anchor_bgn(href,name,type)
  • anchor_end()

处理超链接

  • handle_image(source,alt,ismap.align,width,height)

处理图片




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值