搜索技术
老任物联网杂谈
这个作者很懒,什么都没留下…
展开
-
搜索引擎蜘蛛及网站robots.txt文件详解
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。注意:robots.txt转载 2011-06-10 13:23:00 · 657 阅读 · 0 评论 -
关于搜索应用架构的三篇文章
第一部分:网络爬虫(基础)http://www.ibm.com/developerworks/cn/java/j-lo-dyse1/index.html第二部分:网页预处理(核心)http://www.ibm.com/developerworks/cn/java/j-lo-dyse2/index.html第三部分:查询服务(用户交互接口)http://www.ibm.com/deve转载 2011-06-14 13:18:00 · 551 阅读 · 0 评论 -
Google和Baidu的URL参数说明
Google网页搜索的查询参数q(Query):查询的关键词hl(Interface Language):Google搜索的界面语言hl=zh-CN 简体中文语言界面,我们用的Google中文就是这个参数。hl=zh-TW 繁体中文语言界面,港台地区常使用hl=en 英文语言界面start:显示搜索结果的起始端,如果start=1,则从第2个搜索结果开始显示;如果你想直接看第搜索结果第21转载 2011-06-22 09:48:00 · 689 阅读 · 0 评论