爬虫
number1killer
软件测试
展开
-
Python分布式爬虫前菜(1):关于静态动态网页内容获取的N种方法
转载自:happengft的博客 http://blog.csdn.net/happengft/article/details/59766342 爬虫是我们快速获取需要的数据的一个非常有效的途径,而爬虫的第一步便是能够请求远方服务器为我们返回所需的网页信息。我们知道,正常情况下在浏览器上我们只要输入正确的统一资源定位器url,即网页地址便可轻松打开我们想要看到页面。同理,在设计python转载 2017-09-07 12:00:23 · 321 阅读 · 0 评论 -
Python分布式爬虫前菜(2):关于提取网页源码中特定信息的技巧
转载自:happengft的博客 http://blog.csdn.net/HAPPENgft/article/details/60580588 前面介绍了不同方法来获取静态和动态各类网页源码,可是我们知道网页源码是夹杂着各种文字和代码的让人非常眼花缭乱的信息。如何从中提取出有用的信息是一次有意义的爬虫过程中不可避免的问题。这里我们需要快速简洁的工具帮我们完成,其中就有re,Beautif转载 2017-09-07 12:08:40 · 356 阅读 · 0 评论 -
基于PyHusky的分布式爬虫原理及实现
转载自:happengft的博客 http://blog.csdn.net/happengft/article/details/69248401 爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径。分布式爬虫是由访问某些原始网址开始,在获取这些网址的内容后,根据某些规则从中提取出下一轮的爬虫网址。依此类推,直到将全部链接访问完毕或达转载 2017-09-07 12:15:57 · 498 阅读 · 0 评论