python 生成htmltag_tagparser

最新推荐文章于 2021-10-22 16:03:18 发布

weixin_39534321

最新推荐文章于 2021-10-22 16:03:18 发布

阅读量91

点赞数

文章标签： python 生成htmltag

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39534321/article/details/111457497

版权

软件简介

很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则.

其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.

这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是’’括起来的标记语言.

分析的方式是’抽’式的.也就是说扫描一个个字符当遇到一个tag时也就是遇到一个<>的时候,回调一个函数onGetTag()

,可以重载这个函数做自己的处理.

如遇到

回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag

tagstro是源文件的大小写状态

遇到内容回调 onGetTxt(txtstr) , txtstr是如:xxxxxxxxx xxxxx即内容

使用例子,提取网易新闻页的主要内容,新闻标题,内容主体: 例如:

p = TagParser()

p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')

p.printResult()

输出一个网页的新闻.

weixin_39534321

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 生成htmltag_tagparser

软件简介很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则.其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。