我们将设计一个基于内容经济的推荐系统(Minimum Viable Product, MVP)。这个系统将通过收集用户行为数据,计算用户相似度,并生成个性化的推荐结果。推荐系统将包括数据收集、数据存储、数据处理和推荐服务几个关键部分。
MVP功能点概要
- 前端埋点数据收集:收集用户行为数据,如浏览、点击、购买等。
- 数据存储:将收集到的数据存储在ClickHouse数据库中。
- 离线计算用户相似度:使用Spark计算用户之间的相似度。
- 实时推荐服务:基于用户相似度,为用户提供实时推荐。
实现步骤
步骤一:前端埋点数据收集
- 设置前端埋点:在网站或应用中添加JavaScript代码,收集用户行为数据。
// 前端埋点示例(使用JavaScript)
document.addEventListener('DOMContentLoaded', (event) => {
document.querySelectorAll('.trackable-item').forEach(item => {
item.addEventListener('click', (e) => {
let userId = getUserId(); // 获取用户ID
let itemId = e.target.dataset.itemId; // 获取项目ID
let actionType = 'click'; // 行为类型
let actionTime = new Date().toISOString(); // 行为时间
// 发送数据到后端
fetch('/track', {
method: 'POST',
headers: {
'Content-Type': 'application/json'
},
body: JSON.stringify({
user_id: userId,
item_id: itemId,
action_type: actionType,
action_time: actionTime
})
});
});
});
});
function getUserId() {
// 模拟获取用户ID的逻辑
return '12345';
}
步骤二:数据存储
- 后端服务接收数据并存储到ClickHouse:
# 使用Flask作为后端服务
from flask import Flask, request
from clickhouse_driver import Client
app = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')
@app.route('/track', methods=['POST'])
def track():
data = request.json
user_id = data['user_id']
item_id = data['item_id']
action_type = data['action_type']
action_time = data['action_time']
# 插入数据到ClickHouse
client.execute('''
INSERT INTO user_behavior (user_id, item_id, action_type, action_time)
VALUES (%s, %s, %s, %s)
''', (user_id, item_id, action_type, action_time))
return 'OK', 200
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
- 在ClickHouse中创建存储表:
CREATE TABLE user_behavior (
user_id String,
item_id String,
action_type String,
action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);
步骤三:离线计算用户相似度
- 使用Spark计算用户相似度:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.ml.recommendation import ALS
# 创建Spark会话
spark = SparkSession.builder \
.appName("UserSimilarityCalculation") \
.getOrCreate()
# 加载用户行为数据
user_behavior = spark.read \
.format("jdbc") \
.option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \
.option("dbtable", "user_behavior") \
.option("user", "default") \
.option("password", "your_password") \
.load()
# 训练ALS模型
als = ALS(userCol="user_id", itemCol="item_id", ratingCol="action_type", coldStartStrategy="drop")
model = als.fit(user_behavior)
# 生成用户相似度矩阵
user_factors = model.userFactors
user_similarity = user_factors.alias("i").join(user_factors.alias("j"), col("i.id") != col("j.id")) \
.select(col("i.id").alias("user1"), col("j.id").alias("user2"),
cosine_similarity(col("i.features"), col("j.features")).alias("similarity"))
# 保存用户相似度矩阵到ClickHouse
user_similarity.write \
.format("jdbc") \
.option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \
.option("dbtable", "user_similarity") \
.option("user", "default") \
.option("password", "your_password") \
.mode("overwrite") \
.save()
步骤四:实时推荐服务
- 构建推荐API服务:
from flask import Flask, request, jsonify
from clickhouse_driver import Client
app = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')
@app.route('/recommend', methods=['GET'])
def recommend():
user_id = request.args.get('user_id')
# 查询用户最近的行为数据
user_behavior = client.execute('''
SELECT item_id, COUNT(*) AS count
FROM user_behavior
WHERE user_id = %s
GROUP BY item_id
ORDER BY count DESC
LIMIT 10
''', (user_id,))
# 查询用户相似度
user_similarity = client.execute('''
SELECT user2 AS similar_user, similarity
FROM user_similarity
WHERE user1 = %s
ORDER BY similarity DESC
LIMIT 10
''', (user_id,))
# 基于相似用户的行为推荐
similar_users = [user[0] for user in user_similarity]
recommendations = client.execute('''
SELECT item_id, COUNT(*) AS count
FROM user_behavior
WHERE user_id IN %s
AND item_id NOT IN (
SELECT item_id
FROM user_behavior
WHERE user_id = %s
)
GROUP BY item_id
ORDER BY count DESC
LIMIT 10
''', (tuple(similar_users), user_id))
return jsonify(recommendations)
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
数据结构
用户行为数据表(user_behavior)
CREATE TABLE user_behavior (
user_id String,
item_id String,
action_type String,
action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);
用户相似度矩阵表(user_similarity)
CREATE TABLE user_similarity (
user1 String,
user2 String,
similarity Float32
) ENGINE = MergeTree()
ORDER BY (user1, similarity DESC);
评估效果
使用离线评估指标(如精确度、召回率、NDCG)和在线评估指标(如点击率、转化率)来评估推荐系统的效果。可以通过模拟用户行为数据或在实际环境中进行A/B测试来验证推荐系统的性能。
以上实现步骤提供了一个完整的、最小可验证的推荐系统功能点,从数据收集、存储、处理到推荐服务。通过该MVP,可以验证推荐系统在内容经济中的实际效果,并在此基础上进行进一步优化和扩展。