推荐系统和搜索的区别
大数据lambda结构
- 推荐系统架构
- hadoop、sql、spark都是离线处理数据的工具
- 数据离线处理和在线处理,不同的框架和工具
lambda架构
- 作用:解决实时计算+离线计算共同提供服务的问题;
- 离线计算:
- 框架:hadoop/spark core/spark sql/hive
- 优点:树立数据量大pb级别
- 缺点:速度慢,分钟级别延迟
- 实时计算:
- 框架:spark streaming/storm/flink
- 优点:速度快,毫秒级别延迟
- 缺点:处理的数据量小;
- 消息中间件
- flume:日志采集系统
- kafka :消息队列
- 存储相关
- hbase nosql数据库
- hive sql操作hdfs数据
推荐系统架构
- 召回:推荐系统的天花板,决定物品会不会出现在后续的排序中;
- 协同过滤 u2u/i2i;
- embedding相似度;
- 排序:
- 策略调整:有一些前边相似度计算/客观广告等要求的重排序或者过滤操作;