matlab 爬虫 例子,认识爬虫(示例代码)

爬虫分为两种:

1.通用爬虫。

2.聚焦爬虫。

通用爬虫:搜索引擎用的爬虫系统。

一.目标:爬取所有网站的网页下载下来,存放到本地服务器里形成备份。

二.抓取流程:

a.首选选取一部分已有的url,把这些url放到待爬取队列。

b.从队列里取出这些URL,然后解析DNS得到主机IP,然后去找个IP对应的服务器里下载HTML页面,保存到搜索引擎的服务器里。

之后把这个爬过的URL放入已爬过的队列。

c.分析这些网页内容,找出网页里其他的url连接,继续执行第二部,直到爬虫任务结束。

三.搜索引擎如何获取一个新网站的URL

1.主动提交

2.在其他网站里设置网站的外链

3.搜索引擎和DNS服务器合作,可以快速收录网站。

四,通用爬虫并不是万物皆可爬,需要遵守规则。

Robots协议:协议会指明通用爬虫可以爬取的网页权限。

Robots.txt 并不是所有爬虫的遵守,一般只有大型的搜索引擎爬虫才会遵守。

个人自己写的爬虫就不管了!

五:工作流程:爬取网页--存储数据--内容处理--提供检索/排名服务

六搜索引擎排名:

1.PageRank值:根据网站的流量(点击量/浏览量/人气)统计流量越高,排名越高,越值钱。

2.竞价排名:谁给钱多,谁排名高。

七缺点:

1.只能提供文本相关的内容(HTML,WORD,PDF)等等,不能提供多媒体(音乐,图片,视频)和二进制文件(程序,脚本...)

2.提供的结果千篇一律,不能针对不同背景不同领域的结果。

3.不能理解人类语义上的检索。

聚焦爬虫:程序员写的针对某种内容的爬虫。

面向主题爬虫,面向需要爬虫:会针对某种特定的内容爬取信息,尽可能和需求相关。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值