1.这个问题要么换3.6要么改源码
File “c:\users\administrator.user-20160420ae\appdata\local\programs\python\pyt
hon37-32\lib\site-packages\twisted\conch\manhole.py”, line 154
def write(self, data, async=False):
^
SyntaxError: invalid syntax
2.robots.txt:
DEBUG: Forbidden by robots.txt:
这个文件中规定了本站点允许的爬虫机器爬取的范围,因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,出错是因为使用的爬虫爬取内容违背这个robot.txt。所以只要让爬虫不遵守该协议就好了,具体做法是找到settings文件里的ROBOTSTXT_OBEY设置成False。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
3.xpath的text()和extract()
extract()这个是获取到标签的所有信息
text()则是将该标签的的值获取到,也就是>这里的值<
4.403解决,settings下面用这个就行
USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.