python中的beautiful_在Python中使用BeautifulSoup解析数据

我试图使用BeautifulSoup解析DOM树并提取作者的名字。下面是一段HTML代码,它显示了我要擦掉的代码的结构。

Authors:

A.G. Kosovichev

我的困惑在于,当我执行soup.find时,它会找到我正在搜索的div标记的第一个匹配项。之后,我搜索所有的“a”链接标签。在此阶段,如何从每个链接标记中提取作者姓名并将其打印出来?有没有办法使用BeautifulSoup或者我需要使用Regex?如何继续遍历其他div标记并提取作者姓名?import re

import urllib2,sys

from BeautifulSoup import BeautifulSoup, NavigableString

html = urllib2.urlopen(address).read()

soup = BeautifulSoup(html)

try:

authordiv = soup.find('div', attrs={'class': 'list-authors'})

links=tds.findAll('a')

for link in links:

print ''.join(link[0].contents)

#Iterate through entire page and print authors

except IOError:

print 'IO error'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值