在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下:
随便点开一个就可以看到我们真正访问的URL地址:
从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的数据)可以看到返回的数据就是新闻数据,也就是我们要爬的数据。接下来就是进行url格式分析,一般都会有规律可循。具体代码如下:
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
}
@config(fetch_type="js")
@every(minutes=24 * 60)