目录
9.1异步加载技术与爬虫方法
9.1.1异步加载技术概述
传统的网页如果需要更新内容,必须重新加载整个网页页面,网页加载速度慢,用户体验差,而且数据传输少,会造成宽带浪费。异步加载技术(AJAX),即异步JavaScript和XML,是指一种创建交互式网页应用的网页开发技术。通过在后台与服务器进行少量数据交换,AJAX可以是网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
9.1.2异步加载网页示例
上节讲到的简书网“首页投稿”热评文章的信息(http://www.jianshu.com/c/bDHhpK),通过下滑进行浏览,并没有分页的信息,而是一直浏览下去,但网址信息并没有改变。传统的网页不可能一次性加载如此庞大的信息。通过分析可判断该网页使用了异步加载技术。
9.1.3逆向工程
使用异步加载技术,不再是立即加载所有网页内容,而展示的内容也就不再HTML的源代码中。这样通过前面的方法就无法抓取到数据。想要抓取这些通过异步加载方法的网页数据,需要了解网页时如何加载这些数据的,该过程就叫做逆向工程,俗称“抓包”。具体内容大家可以返回上一节进行查看。
9.2综合案例1-爬取简书网用户动态信息
9.2.1爬虫思路分析
(1)本节爬取的内容为简书网用户动态的信息(http://www.j