【第22期】观点:IT 行业加班,到底有没有价值?

带你真正了解搜索引擎是如何工作的

转载 2016年08月30日 16:00:22

搜索引擎可以被我们称之为一个信息的集成系统,每一个系统都有一个它能够正常运行的原理,搜素引擎也不例外,俗话说磨刀不误砍柴工,我们想做好SEO优化,想让我们的网站更加符合搜索引擎的规范,对于搜索引擎的原理我们必须清楚,这也是每一个SEO优化人员的基本功,只有清楚了搜索引擎的工作原理我们才能在各个环节对我们的网站进行极致的优化,以便让我们的网站能够在搜索引擎的工作原理下健康的发展,下面我就详细解释一下搜索引擎的工作原理。

一、抓取

这个步骤就像大海里捞鱼,搜索引擎像一个大鱼网通过抓取的方式不断获得我们网站的各个元素
1.抓取程序(蜘蛛)
既然抓取就需要工具,搜索引擎抓取页面的工具被我们俗称为蜘蛛,他是一个搜索引擎开发的软件系统,搜索引擎通过这些抓取程序每天不间断的对我们的网站进行抓取,为了区分开来,不同的搜索引擎他的抓取程序的名字是不一样的。
百度蜘蛛:BaiduSpider
谷歌机器人:Googlebot
360蜘蛛:360Spider
这是几个大的搜索引擎的蜘蛛的名字,其他搜索引擎抓取程序的名字自己查询一下即可。
2.如何让抓取程序来抓取
我们肯定希望我们的网站都能够被搜索引擎尽快的抓取,首先搜索引擎的抓取程序是通过链接对我们的网站进行抓取的,我们网站一般都是通过做外部链接的方式来让蜘蛛更好的抓取我们的网站,蜘蛛通过链接爬取到我们的页面的时候他还会通过该页面上面的链接进行继续爬取。
我们还可以通过提交链接的方式来让蜘蛛抓取我们的页面,各大搜索引擎都提供了提交入口,我们想让蜘蛛抓取我们的哪个页面我们去提交即可。
当然还有的网站蜘蛛主动上门来抓取的,互联网上的高质量的内容是非常稀缺的,当你的网站有高质量的内容的时候,蜘蛛就会主动上门并且定期的来抓取你网站的内容,以更新他自己的数据库。
3.怎么知道蜘蛛是否抓取了我们的网站
有两种方式能够看到蜘蛛是否抓取了我们的网站
第一、百度站长平台的抓取频率
推荐大家加入百度站长平台,里面的很多功能对SEO优化都有很大的帮助
第二、服务器日志
服务器日志更能够直观的反映出蜘蛛对于我们网站哪个页面在什么时间通过什么方式抓取的,我们需要会看服务器日志,当然我们也可以通过日志分析工具进行分析。(如图)
4.影响蜘蛛抓取页面的因素
我们知道了蜘蛛通过什么方式抓取我们的页面也知道了怎么看蜘蛛的抓取轨迹,那么什么因素能够影响蜘蛛的抓取呢,主要因素有两个,路径过长和中文路径
A.路径过长
过长的路径会影响蜘蛛对于这个链接所在的页面的抓取,所以我们在设置路径的时候尽量简洁明了,动态路径的话要做好伪静态,尽量避免不必要的参数出现在路径里。
B.中文路径
很多网站的程序会生成一些中文的路径,他们觉得这样会很利于用户对于该路径下的内容的了解,但是中文路径对于蜘蛛的爬取影响是非常大的,所以我们要避免中文路径

二、过滤

1.为什么过滤
搜素引擎通过捞鱼的方式抓取来的页面是鱼龙混杂的,我们知道在互联网上会充斥着各种无价值的页面、死链接页面、欺骗页面等等,搜索引擎为了节省抓取程序的服务器资源同时为了节省搜索引擎的工作时间,要对所抓取的页面进行过滤
2.影响过滤的因素
首先搜索引擎对于JS代码、FLASH、iframe框架都是无法识别的,所以在关键内容我们要尽量不用或者少用这三个因素,其次是图片对于图片我们要做好ALT标签,因为他是通过ALT标签对图片进行识别的。
其次页面质量对于搜索引擎的过滤也是很有影响的,我们应该尽量提高自己的页面质量也便保证搜索引擎不把我们的页面过滤掉。

三、收录

在我们的网站页面经过了前两部的抓取和过滤之后,搜索引擎就会把我们的页面纳入到他的索引库里面,这就是我们经常说的收录,也就是具体呈现到我们面前的一个个页面。
我们可以通过SITE加域名还有百度站长工具的索引量查询这两个方式来查看我们的收录量或者索引量(如图)

四、排序

当搜索引擎对我们的页面建立了索引并且纳入他的数据库之后,搜索引擎会根据自身的一个算法机制对于这些页面进行一个排序,我们每一个SEO不断研究的也正是如何能够让自己的网站获得更好的排序,拥有一个好的排名是综合因素的结果,我们需要做好每一个细节。

总结

我们详解介绍了搜索引擎工作的四个步骤,包括抓取、过滤、收录还有排序,这四个步骤每一步都非常的重要他们之间的联系也是非常的紧密的,只有我们对每一步进行详细了解并且把我们网站按照要求最好,最后我们才会获得搜索引擎。

举报

相关文章推荐

软件开发流程

由于自己对软件开发的流程不是很熟悉,综合收集网上一些文章自我学习: ------------------------------------------------------------------...

文章标题

首先需要手动去下载vs2015以及opencv3.0百度自行搜索 Opencv3.0配置首先为其添加系统变量、D:\program\tools\Opencv3\opencv\build\x64\vc1...

程序员升职加薪指南!还缺一个“证”!

CSDN出品,立即查看!

Android定制日历,支持周月切换,日期标记,农历显示,节假日

公司项目需要一个功能全面的日历,然后就在网上找demo,然后根据demo自己深度定制了一个日历,基本满足了需求,现在把日历核心代码共享给大家。源码下载地址http://download.csdn.ne...

使用RANSAC提纯SIFT和SURF特征点,达到鲁棒匹配的效果(OpenCV 2.4.13下,源码)

{CSDN:CODE:2073967} 实验效果图: (kp_graf_1) (kp_graf_3) (不经过任何处理的图像匹配) (使用距离小于最小距离四倍时的匹配效果) (使...

不可错过的《一步一步学Spring Boot》视频教程

课程名称: 《一步一步学Spring Boot》 课程介绍: Spring Boot是现在很热门的一个微服务框架,作为一名Java Web 开发工程师,是必须要掌握它的。本系列课程会一步一步...

java、八大经典书籍,你看过几本?

一、Java从入门到精通 《Java从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Java语言进行程序开发需要掌握的知识。 《Java从入门到精通(第...

Android 应用启动流程

app热启动

Quartz任务调度[Spring+Quartz结合]_实现任务的动态添加、修改和删除

项目框架图 下面开始贴代码了,不过先贴数据库^^ -- Create table Oracle数据库 create table QUARTZ_SCHEDULEJOB ( id ...

mysql 数据引擎

Mysql中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提供广泛的不同的功能和能力。通过选择不同的技术,你能够获得额外的速度或...

搜索引擎优化基础的11个步骤

搜索引擎优化基础的11个步骤 参与,信任与社区建设 社交媒体和Web 2.0可能是时髦词,但它们是由底层的核心要素是更基本的和根本的。不要生活在一个泡沫和人交谈而不让人们作出反应,并与你互动。人们会谈...
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)