白帽黑客学习之路-python篇-网络爬虫

本文介绍了网络爬虫的基本原理,包括通用、聚焦、增量式和深层网络爬虫的分类,强调了爬虫过程中应注意的法律问题。同时,提供了Python学习路径、必备工具、书籍推荐和实战案例,为Python爬虫学习者提供全面的资源和指导。
摘要由CSDN通过智能技术生成

网络爬虫

又称“网络蜘蛛”,实现自动采集网络数据的程序。

爬虫基本原理

  • 设定一个或多个初始网页URL,并将初始的URL加入到带爬取的URL列表中
  • 从带爬取的列表中逐步读取URL,并将URL加入已爬取的URL列表中然后下载网页
  • 解析已经下载的网页,提取所需的数据和型的URL,并存储提取的数据
  • 新的URL与爬取过的URL对比,检查网页是否已经被爬取,若没有则将新的URL放到带爬取URL列表的末尾,等带爬取
  • 知道待爬取的列表为空或满足设定的总之条件最终达到遍历整个网页的目的

网络爬虫分类

通用网络爬虫又称全网爬虫,是根据网络爬虫的的基本原理实现的,所爬取的目标是从初始设定的URL扩充到全网。通常应用于门户网站,搜索引擎和大型服务提供商的数据采集。

聚焦网络爬虫的目标是与预先定义好的主题相关的网页。它值选择爬取与主题相关的网页。极大的节省了硬件和网络资源,它主要是应用于对特定领域信息有需求的场景聚焦爬虫在通用爬虫基础上,需要对提取的新URL进行过滤处理,过滤掉与目标主题无关的网页,且根据一定的相关性搜索策略,确定待爬取URL列表的读取顺序。

增量式网络爬虫的目标是有更新的已下载网页和新产生的网页。

深层网络爬虫爬取的目标是不能通过静态链接获取的,隐藏在搜索表单后的,只能用户提交一些关键词才能获取的页面,比如用户注册才可显示内容的网页。

爬取数据是因该注意一下几点:

  • 侵犯著作权
  • 侵犯商业机密
  • 侵犯个人隐私
  • 构成不正当竞争
  • 侵入计算机系统,构成犯罪
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值