hadoop学习--搜索引擎面临的数据和计算难题

一、大量网页怎么存储

  亿万级;没有硬盘,存储在内存中,加快检索的速度;冗余的办法储存,将数据写入多个节点中。

二、搜索算法

  搜索响应速度,毫秒级响应;——倒排索引

三、page-rank 计算问题

  网页排名,优先推荐的问题;——

 

 

倒排索引

  先分词——建立索引——建立倒排列表

  

 

page-rank 算法

4被指向的最多,被page-rank高的指向,权重不同 

1:没有指向它的连接

  0 0 0 0

2:1有1/3的权重直到自己,4有100%的权重指向自己

  1/3 0 0 1

3:以此类推

S指矩阵,α靠经验指定0-1之间,n指网页数,这里就是4,U指全为1的矩阵

 找出一个q使得q=G*q;

 特征向量q里第一个就是页面1的page-rank值。

收敛函数:不断迭代,当小于我们设置的阈值时,可取近似值。

 

 

 

但是网页上亿,实现不了这个矩阵算法。

多台计算机,分布式计算

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  网页存储在多个不同的服务器节点上,每个节点上的网页都是矩阵里的若干个列,算出这个列的特征向量,往后加和,汇总到一个节点上,得到一个向量,这是第一次迭代出来的结果,一直循环迭代,直到在阈值范围内,就算出了所有网页的page-rank

汇总的过程叫reduce  再将得到的q分配叫map。

 

 

 

总结:

GFS  ——   Gogle file system  把网页分散在各个节点,并提供冗余

map-reduce  ——  把巨大的不容易计算的,分散到各个节点,再汇总

Bigtable  ——  所有的数据不用再分table,全部放在一张大表里(如Hbase)

 

转载于:https://www.cnblogs.com/onroad2019/p/11340298.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值