对于网络爬虫的概述

刃

已于 2023-01-27 21:47:11 修改

阅读量382

点赞数 2

文章标签：爬虫

于 2023-01-27 03:29:17 首次发布

原文链接：https://mbd.baidu.com/ma/s/gaoTiGaS

版权

声明：本文参考科普中国等网站，并非恶意抄袭搬运

概述

网络爬虫，他又被称为网络蜘蛛网络机器人，在部分社区里，他被称为网页追逐者，网络爬虫是按照一定的规则自动的抓取互联网网站信息的程序或者是脚本，其称呼较多，在此我们将其称为网络爬虫

产生的背景

因为互联网在近代发展十分迅速，万维网成为大量信息的载体，然而如何快速并且正确的利用这些庞大的信息成为了一个巨大的挑战搜索引擎是人类想到的一种爬虫。如Google搜索引擎，其作为一个辅助人们检索信息的网络爬虫，便成为了一个用户访问万维网的入口与指南。但其缺点也十分明显，存在着一些局限性，如其的准确性，以及过多的无用信息，导致用户体验极差，对于服务器而言大量的信息对服务器可能造成不可逆的伤害。现如今如百度等搜索引擎会在进行搜索时只显示700条信息，从而确保服务器的稳定运行，另一种方式是定向抓取相关网页的资源的聚焦爬虫，应运用而成，聚焦爬虫是一个自动下载网页的程序而并非脚本，他会根据已经选择好的目标，在万维网上进行搜索，获取相关信息。

爬虫的分类

1.通用网络爬虫

2.聚焦网络爬虫

3.增量式网络爬虫

4.深层网络爬虫

网络爬虫的攻击方式

1.添加User-Agent字段，使其伪装成一个正常文件

2.同一IP访问中间随机间隔一段时间

3.设置代理服务器

4.识别验证码

网络爬虫的防御方式

1.控制ip的访问频率

2.控制相关的爬取策略，提供爬取成本

3.利用js加密方式加密网页内容

4.网页隐藏网站版权，将字体风格写在css文件中

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

刃 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

160万+: 周排名

150万+: 总排名

1572: 访问

: 等级

36: 积分

5: 粉丝

6: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

最新评论

对于网络爬虫的概述
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)文章不宜太短；(3)使用更多的站内链接。
初识木马病毒
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加条理清晰的目录；(3)使用更多的站内链接。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。