UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xbf in position 2: illegal multibyte sequence
解决方案:
import codecs
d = path.dirname(__file__)
# Read the whole text.
#text = open(path.join(d, 'constitution.txt')).read()
text = codecs.open(u"zhaopin.txt","r","utf-8").read().
使用codecs库并转为utf-8编码即可。
Filtered offsite request to ‘bbs.zol.com.cn’
解决方案:
这条日志记录有点奇怪 果断上网百度 ,找到答案
官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。
yield Request(url, callback=self.parse_item, dont_filter=True)
即在回调方法后加入dont_filter=true