关于Python爬虫自己学习进步2(通用爬虫,聚焦爬虫)

根据使用环境不同,目的不同,分为通用爬虫和聚焦爬虫。

一、通用爬虫:搜索引擎用的爬虫系统。

  1. 目标:尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告等),最后提供一个用户检索的接口(如百度快照则是在一个时间点上爬取到的界面)。
  2. 抓取流程:
    a)首先选取一部分已有的URL,把这些URL放到待爬取队列。 b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载html页面,保存到搜索引擎的本地服务器里,之后把这个爬过的URL放入已爬取队列。c)分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
  3. 搜索引擎如何获取一个新网站的URL:a)主动向搜索引擎提交(百度站长平台);b)在其他网站里设置网站的外链;c)搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
  4. 通用爬虫并不是万物皆可爬,它也需要遵守规则:Robots协议:协议会指明通用爬虫可以爬取网页的权限。Robots.txt并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。所以个人..........
  5. 通用爬虫工作流程:爬取网页 存储数据 内容处理 提供检索/排名服务
  6. 搜索引擎排名:1)PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,排名越靠前,网站越值钱。2)竞价排名:谁给钱多,谁排名就高。
  7. 通用爬虫的缺点:1)只能提供和文本相关的内容(html、word、PDF)等等,但是不能提供多媒体(音乐、图片、视频)和二进制文件(程序,脚本)等等。2)提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。3)不能理解人类语义上的检索(只能针对关键字查询)。

为了解决这个问题,聚焦爬虫出现了:

二、聚焦爬虫:爬虫程序员写的针对某种内容爬虫。

面向主题爬虫,面向需求爬虫,会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值