大数据的常见业务问题和业务场景

概述

搜索引擎概述

  • 桥梁——引导用户找到所求
  • 满足用户需求的过程
  • 连接人与内容、人与服务
    在这里插入图片描述
  • 爬虫:数据收集中心,互联网世界的缩影
  • 索引系统:分析整理爬虫收集到的资源,为检索系统提供数据
  • 检索系统:从预处理好的资源中挑选用户最满意的结果最快最好的展现。

基于MapReduce的互联网网页大数据建库系统

  • 将网页库下载到文件系统中形成网页文件(HTML)(HDFS)
  • 通过Parser提炼、抽取原网页文件生成处理过的网页文件(HDFS)。
  • Inverter对处理过的网页文件进行倒排后,建立索引生成小索引文件(HDFS)
  • 索引合并后形成正式索引文件(HDFS)后对外进行服务

具体流程如下:

  • 目的:建立供检索使用的索引和摘要
  • 输入:网页
  • 输出:索引和摘要
  • 处理:多轮map-reduce
  • 页面分析和处理(parser-extractor)
  • 页面属性小库输出(splitter)
  • 小库正排转倒排(invert-index)
  • 小库合并大库(
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值