关于搜索引擎

  提到搜索引擎,不得不说到Google和百度,现如今,搜索引擎主要是通过两种方法来获取网页内容,一个是由爬虫去爬,也就意味着,如果你的网站没有被外部引用,就不会被搜索引擎发现,这也就是友情链接的作用,帮助你的朋友被搜索到;另一个是主动去注册,就是你主动向搜索引擎后台提供你的链接,由它选择将你收录到什么名下。

  在使用爬虫的情况下,你可以设置网站的robots.txt,规定是否允许被爬取,发现一个很有趣儿的事情,比如淘宝网:https://www.taobao.com/robots.txt

       

仔细一看,对于百度和Google居然有不一样的权限限制,hhh果真A家和B家是有世仇啊。不过其实限制了也似乎没什么大用,因为看大众点评的限制如下:


但其实用爬虫也是可以爬到数据的,这也就是相当于某种自觉吧。爬虫技术暂时说到这里,但是这里强调一下,有外链,不代表搜索爬虫会来爬取,爬虫爬取了,不代表搜索引擎会收录;搜索引擎收录了,不代表用户可以搜索的到

  下面介绍一个小工具,site:Taobao.com这个可以检查一个网站的被收录数量

当爬虫爬下来这些数据时,搜索引擎要处理的关键就变为了建立如何的索引使得查找速度最大,一般采用倒排索引,即抽出关键字作为索引,然后标注其存在的位置,但是对于中文来说,这其实十分困难,搜索引擎的问题变为了NLP的问题。


阅读更多
个人分类: 编程知识
想对作者说点什么? 我来说一句

一个关于搜索引擎技术简介的ppt

2009年12月05日 1.25MB 下载

三个关于搜索引擎的硕士论文

2011年01月19日 10.73MB 下载

搜索引擎技巧让您成为黑客

2010年09月06日 38KB 下载

关于搜索引擎的论文 search engine

2009年06月06日 5.53MB 下载

没有更多推荐了,返回首页

不良信息举报

关于搜索引擎

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭