- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 爬虫篇:动态网页的处理方式(下)——模拟浏览器行为
爬虫篇:动态网页的处理方式(下)——模拟浏览器行为前言:前面的例子中,我们使用WebKit库,可以自定义浏览器渲染引擎,这样就可以完全控制想要执行的行为。如果不需要那么高的灵活性,那么还有一个不错的替代品 Selenium 可以选择,它提供了使浏览器自动化的API 接口。Selenium 简介:Selenium 是一个用于Web应用程序测试的工具。Selenium测试直...
2018-05-15 16:23:49 3969 1
原创 爬虫篇:动态网页的处理方式(中)——渲染动态网页
每篇一句: A strong man will struggle with the storms of fate.前言:上一篇文章中我们介绍了爬取动态网页的一种方式:逆向工程。这种方式有一点美中不足:这种方式要求我们对JavaScript以及Ajax有一定的了解,而且当网页的JS代码混乱,难以分析的时候,上述过程会花费我们大量的时间和精力。这时候,如果对爬虫的执行效率...
2018-05-15 16:17:15 11936 2
原创 爬虫篇:动态网页的处理方式(上)——逆向工程
每篇一句: A man is not old as long as he is seeking something. A man is not old until regrets take the place of dreams.动态网页简介:在我们编写爬虫时,可能会碰到以下两种问题:我们所需要爬取的数据在网页源代码中并不存在;点击下一页跳转页面时,网页的URL 并没...
2018-05-15 16:06:01 16054 15
LD算法的python实现
2017-12-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人