应用内搜索
文章平均质量分 72
a345017062
这个作者很懒,什么都没留下…
展开
-
搜索引擎反作弊与幂律分布
幂律反作弊由于搜索引擎普遍基于PageRank在做,有一种很常见的手法就是给一个网页设置足够多的入链和出链,以提高网页的搜索权重。搜索引擎针对这种作弊方式,会用到“幂律分布”来识别。即,网页的出链和入链是否满足以下规律:少量链接拥有大量流量,大量链接拥有少量流量。也可以更通俗的说,是否符合二八定理。如果一个网页的出链和入链不满足这个规律,那存在作弊行为的可能性就会比较大。幂律分布幂律分布的函数表示,原创 2016-05-18 21:01:39 · 3423 阅读 · 0 评论 -
使用OpenSearch为应用提供搜索功能
创业公司,一切从简,这里用OpenSearch搭建一个健康科普文章的搜索引擎,来展示一下在项目中接入搜索引擎是多么简单。自从用了OpenSearch,老板再也不用担心我的搜索引擎了。说到健康科普,当属我一直关注的丁香医生了,几千篇正牌医生针对自己擅长的领域写出来的文章,权威性很高。不像百度出来的一片片盗版文档,毫无可信度可言。老码农作为资深鼻炎患者,感受颇深。 所以这次就用这些健康科普文章来做次实原创 2016-09-26 12:35:07 · 7265 阅读 · 0 评论 -
几种常见的搜索引擎检索模型
布尔模型苹果 AND 公司:表示搜索既包含“苹果”,又包含“公司”这两个词的文档。 苹果 OR 公司:表示搜索包含“苹果”,或包含“公司”这两个词中任意一个的文档。 特点:简单粗暴向量空间模型把文档被分词后的每一个词当作向量空间的一个维度,把文档表示为一个线性矩阵,比较某个文档的矩阵和查询词的矩阵之间的余弦距离,距离越近,则相关性越大。最后根据相关性对搜索结果做排序。 注意事项:使用TF-ID原创 2016-05-14 10:24:57 · 12416 阅读 · 0 评论 -
文本相似度的那些算法
子序列与子字符串这个系列问题包含这么几种:最大子序列、最长递增子序列、最长公共子串、最长公共子序列。 几个子问题都可以用动态规划的思路来求解。对于长度为i、j的两个字符串 ,使用m[i][j]矩阵来存放中间结果。更详细的算法可以看这篇文档: http://www.cnblogs.com/zhangchaoyang/articles/2012070.html字符串编辑距离精确计算两个字符串的编辑距原创 2016-09-27 17:04:51 · 18018 阅读 · 0 评论 -
优化OpenSearch的搜索结果
前面介绍了OpenSearch的基本使用(使用OpenSearch为应用提供搜索功能),一个小型的搜索服务很容易搭建。但具体应用到某个业务时,可能我们对默认的搜索结果并不满意,这里介绍下OpenSearch在搜索结果的调优方面提供的方法。调优入口使用OpenSearch时,要影响搜索结果,可以在两个地方下功夫。查询一条OpenSearch查询语句可以包含多种形式的子句,除了最核心的必选query子句原创 2016-09-26 21:38:29 · 5348 阅读 · 1 评论