2018年05月_cslinbo

05月 04月 03月 02月 01月

原创爬虫篇：动态网页的处理方式（下）——模拟浏览器行为

爬虫篇：动态网页的处理方式（下）——模拟浏览器行为前言：前面的例子中，我们使用WebKit库，可以自定义浏览器渲染引擎，这样就可以完全控制想要执行的行为。如果不需要那么高的灵活性，那么还有一个不错的替代品 Selenium 可以选择，它提供了使浏览器自动化的API 接口。Selenium 简介：Selenium 是一个用于Web应用程序测试的工具。Selenium测试直...

2018-05-15 16:23:49 3969 1

原创爬虫篇：动态网页的处理方式（中）——渲染动态网页

每篇一句： A strong man will struggle with the storms of fate.前言：上一篇文章中我们介绍了爬取动态网页的一种方式：逆向工程。这种方式有一点美中不足：这种方式要求我们对JavaScript以及Ajax有一定的了解，而且当网页的JS代码混乱，难以分析的时候，上述过程会花费我们大量的时间和精力。这时候，如果对爬虫的执行效率...

2018-05-15 16:17:15 11936 2

原创爬虫篇：动态网页的处理方式（上）——逆向工程

每篇一句： A man is not old as long as he is seeking something. A man is not old until regrets take the place of dreams.动态网页简介：在我们编写爬虫时，可能会碰到以下两种问题：我们所需要爬取的数据在网页源代码中并不存在；点击下一页跳转页面时，网页的URL 并没...

2018-05-15 16:06:01 16054 15

LD算法的python实现

LD算法（Levenshtein Distance）又称编辑距离算法（Edit Distance）。以字符串A通过插入字符、删除字符、替换字符变成另一个字符串B，那么操作的过程的次数表示两个字符串的差异。本资源为此算法的python实现。（python 2.7）

2017-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫篇：动态网页的处理方式（下）——模拟浏览器行为