<a href="https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/" rel="bookmark"><time class="entry-date published" datetime="2018-12-18T11:17:37+00:00">2018-12-18</time><time class="updated" datetime="2018-12-18T11:25:15+00:00">2018-12-18</time></a>
学python爬虫,遇到一个练习,抓取某个网页里的链接,按照学到知识,返回KeyError: 'href'。按照网上找到的其他方法,返回了一个None。
最后解决了。
完整的代码:
import requests
from bs4 import BeautifulSoup
res = requests.get( 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/' )
html = res.text
soup = BeautifulSoup( html, 'html.parser' )
items = soup.find_all( 'article' )
for item in items:
title = item.find( 'h2' )
time = item.find( 'time' )
print( title.text )
print( time.text )
print( title.a['href'])
正确的代码:
print( title.a['href'])
错误的代码:
print( title['href'])
没错也没用的代码:
print( title.get('href'))