用爬虫来获取网站上的信息,可以做到数量大、质量高,且易于对比分析。
但是在爬取过程中,可能会遇到各种问题,在此记录一下我遇到的问题及解决办法。
首先,理一下思路与方法:
1、加上请求头,循环get()多页HTML,
2、引入lxml的etree.HTML()转化对象,
3、Xpath()获取每个想要的值
4、保存数据为.csv文件
坑一:返回空列表
在反复检查了没有语法错误之后,print获取的html代码,发现与源代码不一致,未知是否为反爬机制。换网址再尝试。
坑二:重复print第一页内容
检查是否正确循环不同网页的网址,我的错误在把地址字符串
url+’page_’+str(i)写为url+’page_+str(i)’
坑三:IndexError: list index out of range
这个错误有多种可能,我的错误是爬取中遇到了空值,可以设置一个异常。
以下为代码:
def spider():
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0’}
prefix_url = ‘https://www.qidian.com/rank/fin?dateType=3’
for i in range(1,3):
url = prefix_url+’&page=’+str(i)
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
book_list = selector.xpath(’//*[@id=“rank-view-list”]/div/ul/li’)
print(book_list)
for book in book_list:
title = book.xpath(‘div[2]/h4/a/text()’)[0]
author = book.xpath(‘div[2]/p[1]/a/text()’)[0]
style = book.xpath(‘div[2]/p[1]/a[2]/text()’)[0]
lastupdate = book.xpath(‘div[2]/p[3]/span/text()’)[0]
print(title,author,style,lastupdate)