response.body.decode('gbk')
loader = YjsLoader(item=jobSyjs(), response=response) # 创建item loader
loader.add_xpath('jobCompany', '//div[@class="main mleft"]//h1/text()')
loader.add_value('jobDescription',self.getcompanyinfo(response))
loader.add_xpath('jobAddress', '//div[@class="info clearfix"]//li[contains(.,"工作地点")]//u/text()')
loader.add_value('jobSource', response.url)
loader.add_xpath('jobType', '//div[@class="info clearfix"]//li[contains(.,"职位:")]//u/text()')
loader.add_xpath('jobPubDate', '//div[@class="info clearfix"]//li[contains(.,"发布时间")]//u/text()')
loader.add_value('jobFrom', '搜应届生')
print(loader.item)
return loader.load_item()
我的item定义如下:
class jobSyjs(scrapy.Item):
table = 'joblistSyjs'
jobCompany = scrapy.Field() # 公司名称
jobDescription = scrapy.Field() # 职位描述
jobAddress = scrapy.Field() # 地点
jobSource = scrapy.Field() # job来源
jobType = scrapy.Field() # Job类型
jobPubDate = scrapy.Field() # 发布日期
jobFrom = scrapy.Field() # 爬取来源
如上代码, loader.add_xpath(‘jobCompany’, ‘//div[@class=“main mleft”]//h1/text()’),为jobCompany添加了xpath选择器,正常情况是,选择器返回一个结果xxxx,那么jobCompany的值就是xxxx,但是,xpath选择器返回值为空呢,也就是网页中没有选///择器选择的内容,jobCompany这个字段什么情况,debug最后的到的loader.load_item()得到的Item只有不为空的几个字段,item的values只有jobAddress,jobSource,jobFrom
求解?????????????