Amazon A9搜索引擎 迈出RSS联合搜索第一步

Amazon开发的搜索引擎 A9,首次采用了结合名为OpenSearch的RSS技术进行联合搜索的方式。“许多搜索网站将搜索结果当作自己网站密不可分的一部分。不幸的是,这些搜索结果都埋藏在大堆HTML里面,不遵循任何标准,所以无法轻易重用于其它地方。OpenSearch提供了新的选择,以开放的格式记录搜索结果,使这些结果可以在任何时间任何地点显示。OpenSearch不是要引入新的所有权机制或者封闭的协议,而是采用了已经被广泛接受的XML内容联合格式RSS 2.0的直接扩展,并向下兼容。”(编译 张立楠)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作为最早在国内研究和实践DHT爬虫的人,我的灵感是来自芬兰Helsinki大学的这篇论文: Real-World Sybil Attacks in BitTorrent Mainline DHT 英文好的同学应该很容易读懂,跟我写的不到300行的爬虫代码大致原理一样。初次接触DHT网络的可以结合我之前的文章阅读,或者拜读Kevin Lynx的博客。所以具体原理在这里就不再阐述了。 手撕包菜一开始只是为了纯粹的技术研究,没有去想这个搜索引擎能给网民带来什么样的福利。当时采集了大量的数据,发现有一半以上的资源为限级内容,于是试图去对资源进行分类并且做了很多这方面的工作。譬如,基本上能通过一套规则能筛选出限级内容,对资源进行分类,如果是视频还能匹配出是哪一部影片。可惜,这些工作我主观上认为对生活应用并没有太大价值,于是就放弃了深入的研究。或许是因为网民使用此类搜索引擎大部分都是具有明显的目的性。 手撕包菜经历了多次点技术变更开源版本使用了django网站框架重写,之前是Flask,再早期是tornado。电影FM也是使用tornado,后来发现tornado并不适用于任何场景。以内容为王的网站还是django比较擅长,只是入门时间比其他框架都较长。早期数据库采用了MongoDB,因为配合Python读写数据很方便,也不用关注数据结构,搜索功能采用自带的关键词搜索,不过后来随着资源数量增加,性能也明显跟不上。今年换了WiredTiger引擎,自带的fulltext search还是不给力。另外Amazon的cloudsearch是个坑,土豪可以考虑,性能真的很不错,就是比较贵。最后还是搭建一个SphinxSearch吧,数据库也换成MySQL(MyISAM引擎),配合起来也很方便。Sphinx创建全文索引的速度很给力,官方的自评也很高,我自己测试1000w的资源(大概3GB),1分钟左右就索引完毕。不信,大家可以自测一下。 标签:ssbc
这就是搜索引擎 核心技术详解 张俊林 著 带书签 这本书是写给谁的 如果您是下列人员之一,那么本书就是写给您的。 1. 对搜索引擎核心算法有兴趣的技术人员 • 搜索引擎的整体框架是怎样的?包含哪些核心技术? • 网络爬虫的基本架构是什么?常见的爬取策略是什么?什么是暗网爬取?如何构建 分布式爬虫?百度的阿拉丁计划是什么? • 什么是倒排索引?如何对倒排索引进行数据压缩? . 搜索引擎如何对搜索结果排序? • 什么是向量空间模型?什么是概率模型?什么是BM25 模型?什么是机器学习排 序?它们之间有何异同? • PageRank 和田rs 算法是什么关系?有何异同? SALSA 算法是什么? Hilltop 算法又 是什么?各种链接分析算法之间是什么关系? • 如何识别搜索用户的真实搜索意图?用户搜索目的可以分为几类?什么是点击图? 什么是查询会话?相关搜索是如何做到的? • 为什么要对网页进行去重处理?如何对网页进行去重?哪种算法效果较好? 搜索引擎缓存有几级结构?核心策略是什么? 什么是情境搜索?什么是社会化搜索?什么是实时搜索? 2. 对云计算与云存储有兴趣的技术人员 • 什么是CAP 原理?什么是ACID 原理?它们之间有什么异同? • Google 的整套云计算框架包含哪些技术? Hadoop 系列和Google 的云计算框架是什么 关系? Goo剖e 的三驾马车GFS、BigTable、MapReduce 各自代表什么含义?是什么关系? • Google 的咖啡因系统的基本原理是什么? • Google 的Pregel 计算模型和MapReduce 计算模型有什么区别? Google 的Megastore 云存储系统和BigTable 是什么关系? • 亚马逊公司的时namo 系统是什么? 3. 从事搜索引擎优化的网络营销人员及中小网站站长 • 搜索引擎的反作弊策略是怎样的?如何进行优化避免被认为是作弊? . 搜索引擎如何对搜索结果排序?链接分析和内容排序是什么关系? • 什么是内容农场?什么是链接农场?它们是什么关系? 什么是Web2.0 作弊?有哪些常见手法? 什么是SpamRank?什么是Trus由ank?什么又是BadRank?它们是什么关系? 咖啡因系统对网页排名有何影响?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值