python 文件html 解析,Python:从html文件中获取和解析文本

如果文本没有包含在标签中,那它真的是HTML吗?

正如Amber所说,使用一些HTML解析器(如BeautifulSoup)可以更轻松地完成此任务。

下面的例子演示了一个用于返回标签内文本的简单方法。

此方法适用于任何标签AFAIK。

>>> from BeautifulSoup import BeautifulSoup as bs

>>> html = '''

...

...

... '''

>>> soup = bs(html)

>>> for anchor_tag in soup.findAll('a'):

... print anchor_tag.contents[0]

...

link1 contents

link2 contents

除此之外,我可以想像,你想的一定期限多少次出现在一些HTML文档的计数的字典。 defaultdict是好的那种事:

>>> from collections import defaultdict

>>> d = defaultdict(int)

>>> for anchor_tag in soup.findAll('a'):

... d[anchor_tag.contents[0]] += 1

...

>>> d

defaultdict(, {u'link1 contents': 1, u'link2 contents': 1})

希望这给你一些想法与运行。如果遇到其他问题,请回来再打开另一个问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值