本文偏向于个人学习笔记,不一定很强的参考价值。
网页爬取分为动态和静态。
静态:较为简单,用urllib,urllib2,beautifulsoup之类的组合可以完成。
动态:主要思想是模拟人的浏览行为,通过点击等,让页面完全加载出来,解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步,但每次都会打开网页完成一系列操作,如果用于服务器或是大批量爬取肯定会有速度影响。QtWebKit应该可以试一下。
本文偏向于个人学习笔记,不一定很强的参考价值。
网页爬取分为动态和静态。
静态:较为简单,用urllib,urllib2,beautifulsoup之类的组合可以完成。
动态:主要思想是模拟人的浏览行为,通过点击等,让页面完全加载出来,解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步,但每次都会打开网页完成一系列操作,如果用于服务器或是大批量爬取肯定会有速度影响。QtWebKit应该可以试一下。