这是一篇来记录我的爬取小说过程中出现错误的文章

最新推荐文章于 2023-11-30 15:10:34 发布

Chenyangsut

最新推荐文章于 2023-11-30 15:10:34 发布

阅读量839

点赞数 1

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chenyangsut/article/details/82894932

版权

最近一直在学scrapy，感觉很神奇，之前照着网上的爬取新浪网页的新闻，而后自己写了个简单的爬取代码，主要爬取我近些日子看的小说的内容，github代码连接，这篇文章主要记录我在爬取过程中出现的问题及解决方法

ValueError: Missing scheme in request url: xxxxxx
主要是代码有一段在提取章节网址时，提取的是相对地址，致使网址地址不完整，导致网址出错。
解决办法：在提取网址之后引用时，加上前缀，变为绝对地址就解决了。
ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters
这个问题是在xpath中出现中文编码问题，我的原代码为* name = response.xpath(’//div[@class=“con_top”]/a[@title=“正道潜龙”]/text()’).extract_first()*
修改之后加个u即可* name = response.xpath(u’//div[@class=“con_top”]/a[@title=“正道潜龙”]/text()’).extract_first()*
UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe5 in position 108: ordinal not in range(128）
出现这个问题，原因就是python的str默认是ascii编码，和unicode编码冲突，就会报这个标题错误（我用scrapy的python版本是2.7）
解决方法：加上以下代码
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)
IOError: [Errno 22] invalid mode (‘w’) or filename
因为是Python中的字符串的大概分为为str和Unicode两种形式，其中str常用的编码类型为utf-8,gb2312,gbk等等，Python使用Unicode作为编码的基础类型，open(filename, ‘w’)这个方法中，filename这个参数必须是Unicode编码的参数。
解决方法：原代码* fp = open(curPath+’/’+file_name,‘w’)*
修改后 fp = open(curPath+’/’+file_name.decode(‘utf-8’),‘w’)

以上就是我在爬取小说过程中遇到的问题，我还会继续学习的，大家一起努力，加油！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
这是一篇来记录我的爬取小说过程中出现错误的文章

最近一直在学scrapy，感觉很神奇，之前照着网上的爬取新浪网页的新闻，而后自己写了个简单的爬取代码，主要爬取我近些日子看的小说的内容，github代码连接，这篇文章主要记录我在爬取过程中出现的问题及解决方法ValueError: Missing scheme in request url: xxxxxx主要是代码有一段在提取章节网址时，提取的是相对地址，致使网址地址不完整，导致网址出错。...
复制链接

扫一扫

Chenyangsut CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

94万+: 周排名

143万+: 总排名

969: 访问

: 等级

21: 积分

0: 粉丝

1: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

个人笔记 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

关于Ubuntu切换root用户的问题

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。