Python 遇到的坑

最新推荐文章于 2023-12-10 00:30:00 发布

偶尔清醒

最新推荐文章于 2023-12-10 00:30:00 发布

阅读量226

点赞数

分类专栏：问题解决方案记录 python 文章标签： Python Python 踩的坑

问题解决方案记录同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

python

11 篇文章 1 订阅

订阅专栏

1、在Windows下使用 scrapy保存数据到 csvge 格式文件

参考：https://blog.csdn.net/mr_muli/article/details/80161158

问题：

Window下使用 scrapy 保存数据到 csv 格式文件时报：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 9 错误

原因：

其实就是python字符编码和解码的问题，

对于Unicode字符，需要print出来的话，由于本地系统是Windows中的cmd，默认codepage是CP936，即GBK的编码，所以python解释器需要先将上述的Unicode字符编码为GBK，然后再在cmd中显示出来。但是由于该Unicode字符串中包含一些GBK中无法显示的字符，导致此时提示“’gbk’ codec can’t encode”的错误的。

解决：

方法一：

替换掉u'\xa0'

item['name'] = name[0].replace(u'\xa0', u' ').encode("gbk")

方法二：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符

item['name'] = name[0].encode("gbk", 'ignore')

2、XPath 匹配 tbody

参考：https://blog.csdn.net/Kwoky/article/details/81113019

问题：

在浏览器中使用 xpath help 工具对 tbody 可以匹配数据，在代码中使用 xpath 就匹配不出数据如：

//tbody/tr[@class='even']| //tbody/tr[@class='odd']

原因：

浏览器会在table标签下添加tbody（注：在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化）

解决：

代码中去掉 xpath 匹配规则里的 tbody就好