网页源代码为:
<dl>
<dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd>
</dl>
爬取代码为:
def parseLink(html):
doc = pq(html)
items = doc("dl")
for item in items.items():
print(item)
yield {
'page': item.find('a').attr('href')
}
此时获得的内容为单个’href’.
多数情况是因为item的标签全部连在一块,需要分离标签.
即修改为:
for item in items.items('dd'):