python soup findall div tr td_如何使用BeautifulSoup在<tr>中捕获特定的<td> - python

尝试从nyc Wiki页面中的高中列表中获取所有高中名称。

我已经写了足够多的脚本,可以让我获取包含在高中,学业和入学条件列表的表的

标记中的所有信息-但是我如何才能缩小到我认为的范围内在td[0]内休息(会弹出KeyError)-只是学校的名称?

到目前为止我写的代码:

from bs4 import BeautifulSoup

from urllib2 import urlopen

NYC = 'https://en.wikipedia.org/wiki/List_of_high_schools_in_New_York_City'

html = urlopen(NYC)

soup = BeautifulSoup(html.read(), 'lxml')

schooltable = soup.find('table')

for td in schooltable:

print(td)

我收到的输出:

The Beacon SchoolHumanities & interdisciplinaryAcademic record, interview

我正在寻找的输出:

The Beacon School

参考方案

如何获得页面上的第一个table,遍历除第一个标题之外的所有行,并为每一行获取第一个td元素。为我工作:

for row in soup.table.find_all('tr')[1:]:

print(ro

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值