我正在使用BeautifulSoup阅读网页的内容.我想要的只是抓住< a href>以http://开头.我知道在beautifulsoup你可以搜索属性.我想我只是遇到语法问题.我想它会有类似的东西.
page = urllib2.urlopen("http://www.linkpages.com")
soup = BeautifulSoup(page)
for link in soup.findAll('a'):
if link['href'].startswith('http://'):
print links
但那回归:
Traceback (most recent call last):
File "", line 2, in
File "C:\Python26\lib\BeautifulSoup.py", line 598, in __getitem__
return self._getAttrMap()[key]
KeyError: 'href'
有任何想法吗?提前致谢.
编辑
这不适用于任何网站.该脚本从用户获取URL.所以内部链接目标将是一个问题,这也是我只想要的原因.从页面.如果我把它转向www.reddit.com,它会解析开始的链接,它会到达:
Traceback (most recent call last):
File "", line 2, in
File "C:\Python26\lib\BeautifulSoup.py", line 598, in __getitem__
return self._getAttrMap()[key]
KeyError: 'href'