九、推荐系统实现用户聚类推荐
聚类分析(Cluster analysis),亦称为群集分析,是一种数据点分组的机器学习技术。给定一组数据点,可以用聚类算法将每个数据点分到特定的组中
推荐思路:将用户进行聚类,给每个聚类推荐该类人群喜欢的内容
实现用户聚类推荐的技术流程:
几个步骤:
用户聚类 → 分群热榜统计 → 计算结果缓存 → 在线服务
前两步的结果都会存入到高速缓存,然后在线服务使用缓存进行推荐
用户聚类
- 类别信息:性别、年龄、职业等等,
- 特征处理:使用one-hot把类别信息变成0、1的值
- 行为列表:播放、购买等等,
- 特征处理:因为时变长的,所以使用embedding的技术,转变成一个定长的密集向量。embedding:把有序列表输出成定长向量,每一个向量的值是一个数字,这样不同人的行为列表就可以通过向量直接计算相似度。
- 特征工程之后,把one-hot向量列表和embedd