搜索引擎关键字背后的秘密

最新推荐文章于 2024-09-22 19:27:48 发布

Persist_2010

最新推荐文章于 2024-09-22 19:27:48 发布

阅读量689

点赞数

文章标签：搜索引擎 lucene google 正则表达式 java ssh

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Persist_2010/article/details/6054151

版权

最近一直在做搜索引擎的总结，不妨拿来Google的例子讲讲，正好为以后总结QueryParser做个热身。

最近网上也逐渐流行起来，“揭秘”——Google输入框下隐藏的秘密。我是不知道Google底层是怎么实现的，但在我看来它对关键字的处理恰似Lucene的QueryParser。这样一来，Google便正确理解了用户的意图，构建了正确的对象，返回了用户可能需要的链接。

而Google对关键字的预处理（关键字转换）不外乎这几类：

1. 可以用正则表达式（或者说是通配符）

如：http://[a-z]{1,3}//.abc//.com/.* 这表示查询所有域名末尾是abc.com的网址

（正则表达式看起来很困难，但是用起来却是非常快捷的，以后的文章中会有总结）

Wor？表示关键词有四个字母，前三个是Wor的

2. AND，OR，NOT

如：黄 AND 川，表示既包含“黄”又包含“川”的。

Java OR Lucene，表示包含“Java”、“Lucene”之一的。

Compass NOT SSH，表示包含“Compass”但是不包含“SSH”的。

3. 恢复停滞词

像I, and, then ,if这类的词在搜索引擎中被称为停滞词，因为在句子中起不到太大的意义，有时候就会被忽略。那么只要填上“+”加号就可以将停滞词连接起来，从而被搜索到了。

4. 搜索参数

如：“intitle：” 仅仅只会搜索网页标题。eg:intitle:Lucene

“index of” 是寻找网络和FTP目录

“inurl：”只会搜索网页的网址

“inanchor：”只会寻找那些作为超链接的文本

“link：”会告知有多少链接指向一个网站

“related：”来找到Google认为相似的内容

“info:site_name”可以返回关于某特定页面的信息

等等……

关于Google的“秘密”，网上已经有不少了，所以本人在此就不再累赘复述，只是为明天的QueryParser总结热热身

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。