尝试从nyc Wiki页面中的高中列表中获取所有高中名称。
我已经写了足够多的脚本,可以让我获取包含在高中,学业和入学条件列表的表的
标记中的所有信息-但是我如何才能缩小到我认为的范围内在td[0]内休息(会弹出KeyError)-只是学校的名称?到目前为止我写的代码:
from bs4 import BeautifulSoup
from urllib2 import urlopen
NYC = 'https://en.wikipedia.org/wiki/List_of_high_schools_in_New_York_City'
html = urlopen(NYC)
soup = BeautifulSoup(html.read(), 'lxml')
schooltable = soup.find('table')
for td in schooltable:
print(td)
我收到的输出:
The Beacon SchoolHumanities & interdisciplinaryAcademic record, interview我正在寻找的输出:
The Beacon School
参考方案
如何获得页面上的第一个table,遍历除第一个标题之外的所有行,并为每一行获取第一个td元素。为我工作:
for row in soup.table.find_all('tr')[1:]:
print(ro