网络爬虫(又称网页蜘蛛,网络机器人,还有一些不常使用的名字:蚂蚁、自动索引、模拟程序or蠕虫。在FOAF社区中,更经常被称为网页的追逐者)
其是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通俗的来说,就是模拟客户端访问(正常用户),发送网络请求,获取对应的响应数据
介绍完了,那我们就来更深刻的了解!!!let's go!~
在当今社会,网络迅速发展,我们需要大量的数据进行数据分析或者是机器学习相关的项目。
那么这些数据怎么来的得呐!(四种方式)
我们利用传统的方式就是人工的去收集记录,或者去免费的数据网站上下载数据,也可以去第三方的公司购买数据。
显然!以上三种方式对我们来说都是不大友好,不能有效地提取并利用这些信息。接下来最后一种就是:利用网络爬虫来去万维网中抓取海量的有用的数据。
当然没有那么的简单,我们利用爬虫去模拟网络客户端伪装为了正常的用户去访问,发送网络请求,获取多应的相关的响应数据。那么作为数据的产出者就不是那么的愿意。所以,就诞生了反爬,反爬就是为了保护重要的数据,阻止恶意的网络攻击,防止爬虫以超级超级快的速度获取重要的信息。当然我们也有反反爬,显而易见就是针对反爬做的措施。
那么在反爬中有哪些需克服的难关:
1:js逆向加密
一般使用 js 代码把数据转换,使爬虫程序不能直接获取到,需要用 js 代码来调用获取。
2:加密
是通过加密方法,使数据被转换。常用加密方法有 md5,base64。
3:验证码
验证码大家想必都很熟悉,作用就是阻止爬虫程序爬取,当遇到验证码,就可能终止爬虫程序。
接下来就是康康爬虫的分类,爬虫分为以下几种:
▲通用爬虫: 通常指搜索引擎和大型 Web 服务提供商的爬虫
▲聚焦爬虫: 针对特定网站的爬虫, 定向的获取某方面数据的爬虫
●累积式爬虫: 从开始到结束, 不断进行爬取, 过程中进行数据筛选,去掉重复的部分
●增量式爬虫: 已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页的爬虫
●Deep web爬虫(深层网络爬虫): 不能通过静态链接获取的, 隐藏在搜索表单后的, 只有用户提交一些关键词才能获得的 web页面
好啦ヽ( ̄▽ ̄)و,今天对爬虫的了解就到这里,下一期,让我们试着抓取简单的网页吧!关注我!带你走向人生巅峰!