HTMLParser 学习笔记

困困一直困

于 2018-04-19 10:19:41 发布

阅读量181

点赞数

分类专栏： python 文章标签： Python

本文链接：https://blog.csdn.net/liuxioaer/article/details/79985562

版权

这篇博客分享了使用Python内置的HTMLParser库解析HTML的心得，指出HTML虽为XML子集，但格式不严格，不适合DOM或SAX解析。文章介绍了HTMLParser中需重写方法的实践，并详细讲解了通过feed()函数处理HTML数据的过程。

摘要由CSDN通过智能技术生成

本文记录了一些学习Python HTMLParser时的一些心得，基于个人理解，如有错误欢迎指正：

资料：https://docs.python.org/3/library/html.parser.html

HTML属于XML的子集，但是格式不像XML这么严格，不能用标准的 DOM 或 SAX 来解析 HTML

python中自带了一个类 HTMLParser用来解析HTML

我们可以看到，HTMLParser里面很多方法都是空的，如果需要使用，需要重写方法

# Overridable -- finish processing of start+end tag: <tag.../>
def handle_startendtag(self, tag, attrs):
    self.handle_starttag(tag, attrs)
    self.handle_endtag(tag)

# Overridable -- handle start tag
def handle_starttag(self, tag, attrs):
    pass

# Overridable -- handle end tag
def handle_endtag(self, tag):
    pass

# Overridable -- handle data
def handle_data(self, data):
    pass

进行简单的方法重写：

#解析属性
def handle_starttag(self, tag, attrs):
    print("Start tag:", tag)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

困困一直困

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

htmlparser学习笔记

10-23

HTMLParser是一个纯Java编写的库，专门用于解析和处理HTML文档。...对于想要深入学习和实践的开发者，访问HTMLParser的中文论坛（http://bbs.hexiao.cn/thread.php?fid=6）可以获取更多的支持和资源。

python学习笔记16：HTMLParser

yaoliuwei1426的博客

12-01

480

目的：将我喜欢的公众号文章保存为Word，以方便阅读，使用html.parser中的HTMLParser对网页进行解析，并使用docx中的Document将解析结果保存到word中 HTMLParser类定义及常用方法标准库中的定义 class html.parser.HTMLParser(*, convert_charrefs=True) HTMLParser主要是用来解析HTML文件（包括...

参与评论您还未登录，请先登录后发表或查看评论

初识HtmlParser

weixin_34292402的博客

11-23

121

1、概念网页解析，即程序自动分析网页内容、获取信息，从而进一步处理信息。 htmlparser包提供方便、简洁的处理html文件的方法，它将html页面中的标签按树形结构解析成一个一个结点，一种类型的结点对应一个类，通过调用其方法可以轻松地访问标签中的内容。 ( 官方文档：http://htmlparser.sourceforge.net/sa...

Python HTML操作（HTMLParser）

dasaisao0725的博客

05-14

167

HTML操作是编程中很重要的一块，下面用Python3.x中的html.parser中的HTMLParser类来进行HTML的解析。 HTMLParser类定义及常用方法标准库中的定义 class html.parser.HTMLParser(*, convert_charrefs=True) HTMLParser主要是用来解析HTML文件（...

HTMLParser 学习笔记

10-21

874

python解析html。

python HTMLParser

牧之-_-

03-30

1242

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据

HTMLParser学习笔记1

shudehua的专栏

02-19

740

HTMLParser的下载 1.HTMLParser包的下载地址： http://sourceforge.net/projects/htmlparser/files/ 2.把下载得到的文件中lib目录下的包都引入你的工程中，就可以使用HTMLParser，只引入htmlparser包的话，会无法使用某些HTMLParser里的方法。 3.关于HTMLParser的详细讲解，

HTMLParser学习笔记2

shudehua的专栏

02-19

569

HTMLParser具有小巧，快速的优点，缺点是相关文档比较少（英文的也少），很多功能需要自己摸索。对于初学者还是要费一些功夫的，而一旦上手以后，会发现HTMLParser的结构设计很巧妙，非常实用，基本你的各种需求都可以满足。这里我根据自己这几个月来的经验，写了一点入门的东西，希望能对新学习HTMLParser的朋友们有所帮助。（不过当年高考本人语文只比及格高一分，所以文法方面的问题

HTMLParser学习笔记（一）

weixin_30721899的博客

12-13

HtmlParser学习笔记-- htmlparser简介

03-25

HtmlParser 是一个用于解析HTML文档的Java库，它允许开发者以结构化的方式处理HTML内容，以便提取信息或进行数据抓取。在HtmlParser中，HTML页面的结构通过三种主要的数据结构来表示：Node、AbstractNode和Tag。 1....

HtmlParser笔记

08-27

- "HtmlParser学习笔记总结.doc"：对学习过程的总结，可能包含常见问题解答和最佳实践。 - "yanghaisheng.platform.htmlparser.rar"：可能包含一个示例平台或项目，供用户实践和参考。总之，HtmlParser是Java中一...

python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)

12-24

本篇学习笔记主要探讨了如何利用Python内置的`HTMLParser`库进行基础的HTML解析，以及如何处理HTML实体问题。下面我们将详细展开这两个知识点。首先，`HTMLParser`是Python标准库提供的一种低级别的HTML解析器，它...

HengCe-18900-2024-2030中国金属-陶瓷封装管壳市场现状研究分析与发展前景预测报告 -样本.docx

10-08

HengCe-18900-2024-2030中国金属-陶瓷封装管壳市场现状研究分析与发展前景预测报告 -样本.docx

【超强组合】基于人工蜂群优化算法ABC-BP-Adaboost的数据分类预测算法Matlab实现.rar

10-08

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。替换数据可以直接使用，注释清楚，适合新手

2024年普通高等学校招生“圆梦杯”统一模拟考试试题（六）.pdf