【新手求救】scrapy:根据xpath爬取爬虫获取的结果为空
python新手最近在学习scrapy爬取网站,就先找一个网站爬取一些东西
爬取网站为:http://www.acfun.tv/a/ac2643312
我想爬取的内容为评论,就爬取评论作者reviewer 和 评论内容content
可是我print sites的内容发现为空 []
sites = sel.xpath('//div[@id="area-comment-inner"]/div/div')
出现错误 DEBUG: Crawled (200) (referer: None)
我想请教下各位 xpath 格式是否正确,该怎么样改,谢谢!
还有请求各位给我一些关于学习Python爬虫在方向和方法上一点指引!谢谢各位!
class AcfunSpider(Spider):
name = "acfun"
allowed_domains = ["acfun.tv"]
start_urls = [
"http://www.acfun.tv/a/ac2643312"
]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@id="area-comment-inner"]/div/div')
print sites
items = []
for site in sites:
item = W3SchoolItem()
reviewer= site.xpath('div[2]/text()').extract()
content= site.xpath('div[1]/a/text()').extract()
item['reviewer'] = [r.encode('utf-8') for r in reviewer]
item['content'] = [c.encode('utf-8') for c in content]
items.append(item)
log.msg("Appending item...",level='INFO')
log.msg("Append done.",level='INFO')
return items
通过Firefox的xpath checker检验抓取的内容发现xpath也没问题,是正确
的,但是为什么不对呢??
相关阅读:
云平台的AK/SK是如何设计的
在书上看到这么一段“自定义验证用户名是否已存在”的代码,但是看不懂,求教
我一个很长的字符串里面有中英文字符,要分成若干个最多长度为20个字节的字符串,怎么实现啊
在IOS9.2下 safari 关于rem 的 bug
微信公众号开发语言转码问题
在浏览器打开plist文件文件时没有出现<?xml version="1.0" encoding="UTF-8"?> 。
百度UM文本编辑器问题。。
XML自动提示
miui系统使用非小米推送是否没问题?
关于微信扫码支付模式二问题
C#调用java类,jar包?
这是什么情况,很神奇?用960网格系统时出现的问题。
无法运行meteor自带的localmarket
octopress 发布博客出错
为什么C/C++的预处理指令#include不自动让所包含的文件只包含一次?
C程序读写文件
AJAX 成功返回json数据,但是提示500错误。
今天写PHP的时候遇到了一个关于数组的问题
idea中一个问题,求解答。(问题简单和基础,看清楚再回答好吗)
有把jq插件Easy-Responsive-Tabs-to-Accordion-master成功嵌套的朋友吗?