跟着Scrapy官方入门教程(http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html)流程学习时候遇到的几个问题,由于没有及时更新这个网站,导致里面有些内容比较陈旧,有几个坑记录下来:
1、例子中使用的网站网址变更
2、sel.xpath()报错: “sel” shortcut is deprecated.所有www.dmoz.org都要替换成dmoztools.net,否则爬不到想要的东西
3、from tutorial.items import DmozItem报错xpath()和css()方法被移动到response了,所以要调用时应该这么写:
response.xpath("//div[@id='books']")
response.css("div#books")
有个解决办法是在items.py里写DmozItem类
目前整理到这里,发现还有什么问题的话会继续更新。