实践出真知，python爬虫的掉坑之路

最新推荐文章于 2020-12-18 23:09:26 发布

darkcloud2019

最新推荐文章于 2020-12-18 23:09:26 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/darkcloud2019/article/details/88360785

版权

用爬虫来获取网站上的信息，可以做到数量大、质量高，且易于对比分析。
但是在爬取过程中，可能会遇到各种问题，在此记录一下我遇到的问题及解决办法。

首先，理一下思路与方法：
1、加上请求头，循环get()多页HTML，
2、引入lxml的etree.HTML()转化对象，
3、Xpath()获取每个想要的值
4、保存数据为.csv文件

坑一：返回空列表
在反复检查了没有语法错误之后，print获取的html代码，发现与源代码不一致，未知是否为反爬机制。换网址再尝试。

坑二：重复print第一页内容
检查是否正确循环不同网页的网址，我的错误在把地址字符串
url+’page_’+str(i)写为url+’page_+str(i)’

坑三：IndexError: list index out of range
这个错误有多种可能，我的错误是爬取中遇到了空值，可以设置一个异常。

以下为代码：

def spider():
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0’}
prefix_url = ‘https://www.qidian.com/rank/fin?dateType=3’
for i in range(1,3):
url = prefix_url+’&page=’+str(i)
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
book_list = selector.xpath(’//*[@id=“rank-view-list”]/div/ul/li’)
print(book_list)
for book in book_list:
title = book.xpath(‘div[2]/h4/a/text()’)[0]
author = book.xpath(‘div[2]/p[1]/a/text()’)[0]
style = book.xpath(‘div[2]/p[1]/a[2]/text()’)[0]
lastupdate = book.xpath(‘div[2]/p[3]/span/text()’)[0]
print(title,author,style,lastupdate)

darkcloud2019

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实践出真知，python爬虫的掉坑之路

用爬虫来获取网站上的信息，可以做到数量大、质量高，且易于对比分析。但是在爬取过程中，可能会遇到各种问题，在此记录一下我遇到的问题及解决办法。首先，理一下思路与方法：1、加上请求头，循环get()多页HTML，2、引入lxml的etree.HTML()转化对象，3、Xpath()获取每个想要的值4、保存数据为.csv文件坑一：返回空列表在反复检查了没有语法错误之后，print获取的...
复制链接

扫一扫