python处理HTML和XML

最新推荐文章于 2023-05-11 18:42:30 发布

luckyyulin

最新推荐文章于 2023-05-11 18:42:30 发布

阅读量3k

点赞数

分类专栏： python 文章标签： python处理HTML和XML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luckyyulin/article/details/20211049

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

处理HTML

HTMLParser模块的HTMLParser类

在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时，首先应继承HTMLParser模块中的HTMLParser类，然后重载相关的处理方法。

- feed(data)

其中data为传递的数据

当向HTMLParser对象传递数据后，其就开始对数据进行处理

- colse()

强制处理feed方法存在在缓冲区中的数据

- reset()

重新设置对象实例

- getpos()

获得当前处理的行号和偏移位置

- handle_starttag(tag,attrs)

其中tag:HTMLParser遇到的标记

attrs:标记的属性

遇到某些标记或者数据时调用

- handle_startendtag(tag,attrs)

其中tag:HTMLParser遇到的标记

arrts:标记的属性

当HTMLParser遇到类似于<br/>的标记时调用

- handle_endtag(tag)

其中tag：HTMLParser遇到的结束标记

当HTMLParser遇到结束标记时调用

- handle_data(data)

其中：data为标记间的数据

处理标记间的数据

- hand_comment(data)

其中：data为注释内容

遇到HTML中的注释

htmllib模块的HTMLParser类

anchor_bgn(href,name,type)
anchor_end()

处理超链接

handle_image(source,alt,ismap.align,width,height)

处理图片

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。