1、在Windows下使用 scrapy保存数据到 csvge 格式文件
参考:https://blog.csdn.net/mr_muli/article/details/80161158
问题:
Window下使用 scrapy 保存数据到 csv 格式文件时报:UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 9 错误
原因:
其实就是python字符编码和解码的问题,
对于Unicode字符,需要print出来的话,由于本地系统是Windows中的cmd,默认codepage是CP936,即GBK的编码,所以python解释器需要先将上述的Unicode字符编码为GBK,然后再在cmd中显示出来。但是由于该Unicode字符串中包含一些GBK中无法显示的字符,导致此时提示“’gbk’ codec can’t encode”的错误的。
解决:
方法一:
替换掉u'\xa0'
item['name'] = name[0].replace(u'\xa0', u' ').encode("gbk")
方法二:
在对unicode字符编码时,添加ignore参数,忽略无法无法编码的字符
item['name'] = name[0].encode("gbk", 'ignore')
2、XPath 匹配 tbody
参考:https://blog.csdn.net/Kwoky/article/details/81113019
问题:
在浏览器中使用 xpath help 工具 对 tbody 可以匹配数据, 在代码中使用 xpath 就匹配不出数据 如:
//tbody/tr[@class='even']| //tbody/tr[@class='odd']
原因:
浏览器会在table标签下添加tbody(注:在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化 )
解决:
代码中去掉 xpath 匹配规则里的 tbody就好