大数据学习之路(一)

大数据常见业务:搜索引擎概述、广告系统概述、知名推荐系统架构等
一、搜索引擎(三段式结构):
搜索引擎——>检索系统<——索引系统<——网页库<——spider<——互联网
基于MapReduce的建库系统(建库流)
目的:建立供检索使用的索引和摘要
输入:网页
输出:索引和摘要
处理:多轮map-reduce
页面分析和处理(parser-extractor)
页面属性小库输出(splitter)
小库正排转倒排(invert-index)
小库合并大库(index-merge)
二、广告系统
自有流量:站内的流量
外部流量:借助外部平台宣传的广告,吸引的流量
广告计费方式:搜索广告点击计费(CPC),展示广告展现计费(CPM),淘宝客(CPS)

  • 搜索广告
    参与的三方:网民,广告主,搜索平台
    广告触发
    广告主通过和网名通过关键词表达需求
    CTR预估:机器学习
    点击率用于广告的排序
    广告排序:广告词广告拍卖机制
    排序函数:ctr*bid
    例子:用户——》input——》query——》匹配与检索——》广告索引——》广告候选集——》排序——>返还给用户
    三、知名推荐系统框架
    推荐流程:
    第一阶段:召回阶段(粗排):用token检索item,本质是找候选的过程(模型简单,几亿规模到几百)
    第二阶段:过滤阶段
    第三阶段:排序阶段(精排):把好的item排在前面(复杂的模型)
    第四阶段:截断截断:取top
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值