python 文件html 解析,Python：从html文件中获取和解析文本

最新推荐文章于 2023-02-19 23:21:33 发布

丞高

最新推荐文章于 2023-02-19 23:21:33 发布

阅读量349

点赞数

文章标签： python 文件html 解析

如果文本没有包含在标签中，那它真的是HTML吗？

正如Amber所说，使用一些HTML解析器(如BeautifulSoup)可以更轻松地完成此任务。

下面的例子演示了一个用于返回标签内文本的简单方法。

此方法适用于任何标签AFAIK。

>>> from BeautifulSoup import BeautifulSoup as bs

>>> html = '''

...

...

... '''

>>> soup = bs(html)

>>> for anchor_tag in soup.findAll('a'):

... print anchor_tag.contents[0]

...

link1 contents

link2 contents

除此之外，我可以想像，你想的一定期限多少次出现在一些HTML文档的计数的字典。 defaultdict是好的那种事：

>>> from collections import defaultdict

>>> d = defaultdict(int)

>>> for anchor_tag in soup.findAll('a'):

... d[anchor_tag.contents[0]] += 1

...

>>> d

defaultdict(, {u'link1 contents': 1, u'link2 contents': 1})

希望这给你一些想法与运行。如果遇到其他问题，请回来再打开另一个问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注