把你的allowed_domains 和 start_urls修改一下即可(为了代码简洁,删除 url="http://xjh.haitou.cc 这个定义(没必要))。
修改完后,判断有一下还有一下的话,继续爬取数据:
yield scrapy.Request(response.urljoin(nextlink[0]),callback=self.parse )
代码修改如下,原因就不说了,建议参考官方文档。
class WeatherSpider(scrapy.Spider):
name = "myweather"
allowed_domains = ["xjh.haitou.cc"]
start_urls = ["http://xjh.haitou.cc/nj/uni-21"]
def parse(self, response):
item = WeatherItem()
preachs=response.xpath('//table[@id="mainInfoTable"]/tbody/tr')
for preach in preachs:
item['corp']=preach.xpath('.//div[@class="text-success company"]/text()').extract()
item['date']=preach.xpath('.//span[@class="hold-ymd"]/text()').extract()
item[&