这几天在研究 用python 抓取动态网页的问题。有你用浏览器打开的时候,可以看到一些内容,但是打开源代码之后发现,并没有这些内容,正是因为这些在html源码中没有显示的内容其实是用 js 的代码动态加载的,所以无法找到。那么问题来了,怎么抓取这些动态网页。
一开始试了 spynner ghost 等python 模块,但是 总是报错,后台放弃了。
在然后在网上周到了selenium 模块。贴出一些牛人的
http://www.cnblogs.com/fnng/archive/2013/05/29/3106515.html
http://blog.chinaunix.net/uid-22414998-id-3692113.html