实践出真知,python爬虫的掉坑之路

用爬虫来获取网站上的信息,可以做到数量大、质量高,且易于对比分析。
但是在爬取过程中,可能会遇到各种问题,在此记录一下我遇到的问题及解决办法。

首先,理一下思路与方法:
1、加上请求头,循环get()多页HTML,
2、引入lxml的etree.HTML()转化对象,
3、Xpath()获取每个想要的值
4、保存数据为.csv文件

坑一:返回空列表
在反复检查了没有语法错误之后,print获取的html代码,发现与源代码不一致,未知是否为反爬机制。换网址再尝试。

坑二:重复print第一页内容
检查是否正确循环不同网页的网址,我的错误在把地址字符串
url+’page_’+str(i)写为url+’page_+str(i)’

坑三:IndexError: list index out of range
这个错误有多种可能,我的错误是爬取中遇到了空值,可以设置一个异常。

以下为代码:

def spider():
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0’}
prefix_url = ‘https://www.qidian.com/rank/fin?dateType=3
for i in range(1,3):
url = prefix_url+’&page=’+str(i)
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
book_list = selector.xpath(’//*[@id=“rank-view-list”]/div/ul/li’)
print(book_list)
for book in book_list:
title = book.xpath(‘div[2]/h4/a/text()’)[0]
author = book.xpath(‘div[2]/p[1]/a/text()’)[0]
style = book.xpath(‘div[2]/p[1]/a[2]/text()’)[0]
lastupdate = book.xpath(‘div[2]/p[3]/span/text()’)[0]
print(title,author,style,lastupdate)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值