声明:本文参考科普中国等网站,并非恶意抄袭搬运
概述
网络爬虫,他又被称为网络蜘蛛网络机器人,在部分社区里,他被称为网页追逐者,网络爬虫是按照一定的规则自动的抓取互联网网站信息的程序或者是脚本,其称呼较多,在此我们将其称为网络爬虫
产生的背景
因为互联网在近代发展十分迅速,万维网成为大量信息的载体,然而如何快速并且正确的利用这些庞大的信息成为了一个巨大的挑战搜索引擎是人类想到的一种爬虫。如Google搜索引擎,其作为一个辅助人们检索信息的网络爬虫,便成为了一个用户访问万维网的入口与指南。但其缺点也十分明显,存在着一些局限性,如其的准确性,以及过多的无用信息,导致用户体验极差,对于服务器而言大量的信息对服务器可能造成不可逆的伤害。现如今如百度等搜索引擎会在进行搜索时只显示700条信息,从而确保服务器的稳定运行,另一种方式是定向抓取相关网页的资源的聚焦爬虫,应运用而成,聚焦爬虫是一个自动下载网页的程序而并非脚本,他会根据已经选择好的目标,在万维网上进行搜索,获取相关信息。
爬虫的分类
1.通用网络爬虫
2.聚焦网络爬虫
3.增量式网络爬虫
4.深层网络爬虫
网络爬虫的攻击方式
1.添加User-Agent字段,使其伪装成一个正常文件
2.同一IP访问中间随机间隔一段时间
3.设置代理服务器
4.识别验证码
网络爬虫的防御方式
1.控制ip的访问频率
2.控制相关的爬取策略,提供爬取成本
3.利用js加密方式加密网页内容
4.网页隐藏网站版权,将字体风格写在css文件中