推荐系统的核心逻辑 MVP

数字沉思

于 2024-07-29 11:04:01 发布

阅读量189

点赞数 4

分类专栏：系统架构文章标签：推荐算法

本文链接：https://blog.csdn.net/weixin_40726747/article/details/140766006

版权

系统架构专栏收录该内容

7 篇文章 0 订阅

订阅专栏

我们将设计一个基于内容经济的推荐系统（Minimum Viable Product, MVP）。这个系统将通过收集用户行为数据，计算用户相似度，并生成个性化的推荐结果。推荐系统将包括数据收集、数据存储、数据处理和推荐服务几个关键部分。

MVP功能点概要

前端埋点数据收集：收集用户行为数据，如浏览、点击、购买等。
数据存储：将收集到的数据存储在ClickHouse数据库中。
离线计算用户相似度：使用Spark计算用户之间的相似度。
实时推荐服务：基于用户相似度，为用户提供实时推荐。

实现步骤

步骤一：前端埋点数据收集

设置前端埋点：在网站或应用中添加JavaScript代码，收集用户行为数据。

// 前端埋点示例（使用JavaScript）
document.addEventListener('DOMContentLoaded', (event) => {
    document.querySelectorAll('.trackable-item').forEach(item => {
        item.addEventListener('click', (e) => {
            let userId = getUserId(); // 获取用户ID
            let itemId = e.target.dataset.itemId; // 获取项目ID
            let actionType = 'click'; // 行为类型
            let actionTime = new Date().toISOString(); // 行为时间
            
            // 发送数据到后端
            fetch('/track', {
                method: 'POST',
                headers: {
                    'Content-Type': 'application/json'
                },
                body: JSON.stringify({
                    user_id: userId,
                    item_id: itemId,
                    action_type: actionType,
                    action_time: actionTime
                })
            });
        });
    });
});

function getUserId() {
    // 模拟获取用户ID的逻辑
    return '12345';
}

步骤二：数据存储

后端服务接收数据并存储到ClickHouse：

# 使用Flask作为后端服务
from flask import Flask, request
from clickhouse_driver import Client

app = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')

@app.route('/track', methods=['POST'])
def track():
    data = request.json
    user_id = data['user_id']
    item_id = data['item_id']
    action_type = data['action_type']
    action_time = data['action_time']
    
    # 插入数据到ClickHouse
    client.execute('''
        INSERT INTO user_behavior (user_id, item_id, action_type, action_time) 
        VALUES (%s, %s, %s, %s)
    ''', (user_id, item_id, action_type, action_time))
    
    return 'OK', 200

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

在ClickHouse中创建存储表：

CREATE TABLE user_behavior (
    user_id String,
    item_id String,
    action_type String,
    action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);

步骤三：离线计算用户相似度

使用Spark计算用户相似度：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.ml.recommendation import ALS

# 创建Spark会话
spark = SparkSession.builder \
    .appName("UserSimilarityCalculation") \
    .getOrCreate()

# 加载用户行为数据
user_behavior = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \
    .option("dbtable", "user_behavior") \
    .option("user", "default") \
    .option("password", "your_password") \
    .load()

# 训练ALS模型
als = ALS(userCol="user_id", itemCol="item_id", ratingCol="action_type", coldStartStrategy="drop")
model = als.fit(user_behavior)

# 生成用户相似度矩阵
user_factors = model.userFactors
user_similarity = user_factors.alias("i").join(user_factors.alias("j"), col("i.id") != col("j.id")) \
    .select(col("i.id").alias("user1"), col("j.id").alias("user2"), 
            cosine_similarity(col("i.features"), col("j.features")).alias("similarity"))

# 保存用户相似度矩阵到ClickHouse
user_similarity.write \
    .format("jdbc") \
    .option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \
    .option("dbtable", "user_similarity") \
    .option("user", "default") \
    .option("password", "your_password") \
    .mode("overwrite") \
    .save()

步骤四：实时推荐服务

构建推荐API服务：

from flask import Flask, request, jsonify
from clickhouse_driver import Client

app = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')

@app.route('/recommend', methods=['GET'])
def recommend():
    user_id = request.args.get('user_id')
    
    # 查询用户最近的行为数据
    user_behavior = client.execute('''
        SELECT item_id, COUNT(*) AS count 
        FROM user_behavior 
        WHERE user_id = %s 
        GROUP BY item_id 
        ORDER BY count DESC 
        LIMIT 10
    ''', (user_id,))
    
    # 查询用户相似度
    user_similarity = client.execute('''
        SELECT user2 AS similar_user, similarity 
        FROM user_similarity 
        WHERE user1 = %s 
        ORDER BY similarity DESC 
        LIMIT 10
    ''', (user_id,))
    
    # 基于相似用户的行为推荐
    similar_users = [user[0] for user in user_similarity]
    recommendations = client.execute('''
        SELECT item_id, COUNT(*) AS count 
        FROM user_behavior 
        WHERE user_id IN %s 
        AND item_id NOT IN (
            SELECT item_id 
            FROM user_behavior 
            WHERE user_id = %s
        ) 
        GROUP BY item_id 
        ORDER BY count DESC 
        LIMIT 10
    ''', (tuple(similar_users), user_id))
    
    return jsonify(recommendations)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

数据结构

用户行为数据表（user_behavior）

CREATE TABLE user_behavior (
    user_id String,
    item_id String,
    action_type String,
    action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);

用户相似度矩阵表（user_similarity）

CREATE TABLE user_similarity (
    user1 String,
    user2 String,
    similarity Float32
) ENGINE = MergeTree()
ORDER BY (user1, similarity DESC);

评估效果

使用离线评估指标（如精确度、召回率、NDCG）和在线评估指标（如点击率、转化率）来评估推荐系统的效果。可以通过模拟用户行为数据或在实际环境中进行A/B测试来验证推荐系统的性能。

以上实现步骤提供了一个完整的、最小可验证的推荐系统功能点，从数据收集、存储、处理到推荐服务。通过该MVP，可以验证推荐系统在内容经济中的实际效果，并在此基础上进行进一步优化和扩展。

数字沉思

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
推荐系统的核心逻辑 MVP

我们将设计一个基于内容经济的推荐系统（Minimum Viable Product, MVP）。这个系统将通过收集用户行为数据，计算用户相似度，并生成个性化的推荐结果。推荐系统将包括数据收集、数据存储、数据处理和推荐服务几个关键部分。
复制链接

扫一扫

专栏目录