python中html.parser_Python html.parser库学习小结

最新推荐文章于 2024-04-07 10:04:33 发布

weixin_39876282

最新推荐文章于 2024-04-07 10:04:33 发布

阅读量171

点赞数

文章标签： python中html.parser

分类路径：/Datazen/DataMining/Crawler/

前段时间，一朋友让我做个小脚本，抓一下某C2C商城上竞争对手的销售/价格数据，好让他可以实时调整自己的营销策略。自己之前也有过写爬虫抓某宝数据的经历，实现的问题不大，于是就答应了。初步想法是利用pyhton中的urllib.request和re两个lib(本文示例用的是Pyhton 3.4 ，2.x的请自行切换)，外加上其他的统计分析功能的话，最多两个晚上(白天要工作)可以搞定。实际上做的过程中，遇到了两个主要困难：

(1)电商网站对于交易数据的保护很好。小爬虫动不动就会被ban掉或者采用一些其他的保护措施使得其无法正常采集所需的数据，需要添加额外的代码处理各种虐心的情况；

(2)正则表达式实在是难写，而且很复杂和很难维护。于是自己也思考有没有其他的解决方案——本文就是对其中一解决方案的初步介绍。

一开始想到的当然是著名的第三方库Beautifulsoup(作为一个广东男人，我习惯把它称为”靓汤“)。这个库很强大，但正因为它强大，需要一点学习时间而我需要快点上手，于是只好日后再学(到时再写一篇Beautifulsoup学习总结)。权衡以后，最后目光转向了Python Standard Library中的html.parser。

html.parser是一个非常简单和实用的库，它的核心是HTMLParser类。从源码来看，它内部封装了一系列regular expression。工作的流程是：当你feed给它一个类似HTML格式的字符串时，它会调用goahead方法向前迭代各个标签，并调用对应的parse_xxxx方法提取start_tag, tag, attrs data comment和end_tag等等标签信息和数据，然后调用对应的方法对这些抽取出来的内容进行处理。整个HTMLParser的大致结构如下图所示：

可以发现，处理开始标签(handle_starttag)、结束标签(handle_endtag)和处理数据(handle_data)等处理函数在HTMLParser里是没有实现的(pass)，这需要我们继承HTMLParser这个类的并覆盖这些方法。详细可以参阅python文档，这里重点介绍几个常用的方法：

feed(data)：主要用于接受带html标签的str，当调用这个方法时并提供相应的data时，整个实例(instance)开始执行，结束执行close()。

handle_starttag(tag, attrs): 这个方法接收Parse_starttag返回的tag和attrs，并进行处理，处理方式通常由使用者进行覆盖，本身为空。例如，连接的start tag是，那么对应的参数tag＝’a’(小写)。attrs是start tag <>中的属性，以元组形式(name, value)返回(所有这些内容都是小写)。例如，对于，那么内部调用形式为：handle_starttag(’a’,[(‘href’,’http://www.baidu.com)]).

handle_endtag(tag)：跟上述一样，只是处理的是结束标签，也就是以开头的标签。

handle_data(data)：处理的是网页的数据，也就是开始标签和结束标签之间的内容。例如：的省略号内容

reset()：将实例重置，包括作为参数输入的数据进行清空。

举个例子吧。例如我们有以下一堆带HTML标签的数据，

【金冠现货/全色/顶配版】Xiaomi/小米小米note移动联通4G手机

【购机即送布丁套+高清贴膜+线控耳机+剪卡器+电影支架等等,套餐更多豪礼更优惠】【购机即送布丁套+高清贴膜+线控耳机+剪卡器+电影支架等等,套餐更多豪礼更优惠】【金冠信誉+顺丰包邮+全国联保---多重保障】

weixin_39876282

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中html.parser_Python html.parser库学习小结

分类路径：/Datazen/DataMining/Crawler/前段时间，一朋友让我做个小脚本，抓一下某C2C商城上竞争对手的销售/价格数据，好让他可以实时调整自己的营销策略。自己之前也有过写爬虫抓某宝数据的经历，实现的问题不大，于是就答应了。初步想法是利用pyhton中的urllib.request和re两个lib(本文示例用的是Pyhton 3.4 ，2.x的请自行切换)，外加上其他的统计分...
复制链接

扫一扫