爬虫1——(爬虫3days课程)

本文介绍了爬虫的基本概念,包括通用爬虫和聚焦爬虫的定义及其区别。接着详细讲解了URL的搜索策略,如基于IP地址、广度优先、深度优先和最佳优先策略。此外,还探讨了HTTP的基本原理,包括URL、超文本、HTTP请求过程以及GET和POST请求的差异。
摘要由CSDN通过智能技术生成

理论

分类:

通用爬虫和聚焦爬虫

通用爬虫——主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜

像备份。尽可能的把互联网上的所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。

聚焦爬虫——是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

URL的搜索策略

✓ 基于IP地址搜索策略——

先赋予爬虫一个起始的IP地址,然后根据IP地址递增的方式搜索本

口地址段后的每一个WWW地址中的文档,它完全不考虑各文档中指向

其它Web站点的超级链接地址

✓ 广度优先——

在抓取过程中,在完成当前层次的搜索后,

才进行下一层次的搜索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值