推荐系统如何处理数据？

第四范式天枢

于 2019-08-19 18:55:47 发布

阅读量1.6k

点赞数

分类专栏：技术研讨文章标签：推荐系统推荐算法个性化推荐第四范式先荐

本文链接：https://blog.csdn.net/FirstCilck/article/details/99749768

版权

推荐系统依赖于数据处理，包括数据收集、存储、分析和过滤。数据收集涉及显性和隐性用户行为数据，数据存储可以选择SQL或NoSQL数据库，数据分析涵盖实时、批量和近实时方法，数据过滤则利用协同过滤等算法为用户提供个性化推荐。先荐作为AI推荐服务，帮助企业搭建推荐系统，提升业务指标。

摘要由CSDN通过智能技术生成

据统计，全球数据总量预计2020年达到44ZB，中国数据量将达到8060EB，占全球数据总量的18%。现阶段我们所讨论的人工智能，很大程度上都是在谈“人工智能”这个大概念下机器学习领域中的深度学习技术。它的底层原理相对简单，对数据有很大的依赖性，本质上是一种基于大数据的统计分析技术。

推荐系统作为人工智能的落地场景之一，对数据的依赖性不言而喻。企业通过前期的数据收集，全面了解自身的产品和目标用户；之后，通过一系列的数据挖掘技术，对目标用户进行分类，刻画用户画像；最后，再通过数据决策，制定产品运营方案，并不断迭代、优化产品细节。可以说，没有前期的数据，之后的一系列操作无从谈起。

那么，推荐系统是如何处理数据的呢？

一个典型的推荐系统，处理数据通常会经历以下四步：即数据收集、数据存储、数据分析和数据过滤。

数据收集

实现推荐系统的第一步便是收集数据。这些数据可以是显性数据，也可以是隐性数据。显性数据就是指用户主动输入的数据，例如对内容的评论、点赞、转发、下载等，隐性数据是指用户的浏览历史、阅读时长、观看记录、搜索日志等。后台会为每一个使用该产品/访问该站点的用户创建一个数据集。

用户的行为数据很容易收集，通过站点上的用户行为日志就能获取。如果用户已经在使用APP，获取用户的行为数据就不需要用户的额外操作。但这种方法有一个缺点，获取的数据分析起来很麻烦。比如说，从用户的大量行为日志中过滤出真正需要的日志非常麻烦。

由于每个用户对产品的喜好不一，因此收集到的每位用户的数据集也截然不同。随着时间的推移，收集到的用户数据也越来越多，通过一系列数据分析，推荐的结果也会越来越精准

关注

专栏目录