基于Nutch和Hadoop的简易搜索引擎

最新推荐文章于 2023-12-11 15:23:47 发布

VIP文章 fu_ding1991

最新推荐文章于 2023-12-11 15:23:47 发布

阅读量2.8k

点赞数 2

分类专栏： Linux HADOOP 文章标签： hadoop nutch search

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dingzuoer/article/details/45195883

版权

最近和寝室的同学一起搭建了Hadoop的集群，实现了一个简易的本地搜索引擎，并且将其开源到了github上：https://github.com/ifuding/search-1047，接下来的几篇博文将对这个项目及其代码作一些详细的描述。

搜索原理概述

“搜索”，简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合。一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值。

PageRank

PageRank算法有很多文章对其进行讲解，其模型类似一个马尔科夫链。如果一个高PageRank值的网页1指向了另一个网页2，则可以认为网页2的PageRank值也会相应的变高。
假设有n个src网页指向一个target网页,则我们认为:
Pr[target]=1-dampFac+dampFac*sum{Pr[src]/OutlinkNum[src]}
其中，dampFac是为了防止死链和陷阱的。
所谓死链就是所有的url指向了一个url，但是此url没有出链，则最后所有网页的Pr会收敛到0。如果此url有指向自己的循环，则最后除了此url其它url的Pr的值都会收敛到0。
所以在公式里面加入了阻尼因子dampFac（取为0.85），模拟上网者的真实行为，即你一开始可以以1-dampFac的概率随机进入此网页，或者以dampFac的概率从其它网页进入这个网页，加入这个因子也可以防止用户无限制地浏览（小于1的数的n次方趋近于0）。借此避免以上两种错误的收敛情况。

文本检索

文本检索有专门的NLP分析方法，在

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群，实现了一个简易的本地搜索引擎，并且将其开源到了github上：https://github.com/ifuding/search-1047，接下来的几篇博文将对这个项目及其代码作一些详细的描述。搜索原理概述“搜索”，简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合。一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值
复制链接

扫一扫

专栏目录

fu_ding1991 CSDN认证博客专家 CSDN认证企业博客

码龄13年

99: 原创

20万+: 周排名

188万+: 总排名

9万+: 访问

: 等级

1791: 积分

13: 粉丝

24: 获赞

15: 评论

37: 收藏

私信

关注

热门文章

分类专栏

POJ 66篇
图论 24篇
动态规划 29篇
BFS/DFS 32篇
数据结构 30篇
hash 5篇
数学 20篇
Code Jam 4篇
Java 2篇
hackercup 4篇
LeetCode 21篇
c++ 6篇
string 6篇
Linux 7篇
HADOOP 6篇
ML 1篇

最新评论

g++ -L 和-l && -I参数
渐消散: 你好，请问库是什么意思，头文件还是.cpp文件啊？
g++ -L 和-l && -I参数
Advsance: 你能不能把格式调整一下啊，看着好乱
基于Nutch和Hadoop的简易搜索引擎
DQA1505045218: GitHub上的代码可以运行windows的eclipse上吗
g++ -L 和-l && -I参数
Deep_Blue7: 请问如果usr/lib 和 usr/local/lib都有同一个名字的库(但是版本可能不一样) 用-l参数用的是哪个
基于Nutch和Hadoop的简易搜索引擎
BrownWong: 谢谢楼楼，我们近期也要做一个搜索引擎

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。