自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lin

Hello!

  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫篇:动态网页的处理方式(下)——模拟浏览器行为

爬虫篇:动态网页的处理方式(下)——模拟浏览器行为前言:前面的例子中,我们使用WebKit库,可以自定义浏览器渲染引擎,这样就可以完全控制想要执行的行为。如果不需要那么高的灵活性,那么还有一个不错的替代品 Selenium 可以选择,它提供了使浏览器自动化的API 接口。Selenium 简介:Selenium 是一个用于Web应用程序测试的工具。Selenium测试直...

2018-05-15 16:23:49 3965 1

原创 爬虫篇:动态网页的处理方式(中)——渲染动态网页

每篇一句: A strong man will struggle with the storms of fate.前言:上一篇文章中我们介绍了爬取动态网页的一种方式:逆向工程。这种方式有一点美中不足:这种方式要求我们对JavaScript以及Ajax有一定的了解,而且当网页的JS代码混乱,难以分析的时候,上述过程会花费我们大量的时间和精力。这时候,如果对爬虫的执行效率...

2018-05-15 16:17:15 11932 2

原创 爬虫篇:动态网页的处理方式(上)——逆向工程

每篇一句: A man is not old as long as he is seeking something. A man is not old until regrets take the place of dreams.动态网页简介:在我们编写爬虫时,可能会碰到以下两种问题:我们所需要爬取的数据在网页源代码中并不存在;点击下一页跳转页面时,网页的URL 并没...

2018-05-15 16:06:01 16047 15

LD算法的python实现

LD算法(Levenshtein Distance)又称编辑距离算法(Edit Distance)。以字符串A通过插入字符、删除字符、替换字符变成另一个字符串B,那么操作的过程的次数表示两个字符串的差异。本资源为此算法的python实现。(python 2.7)

2017-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除