音乐数据有3个原始文件:
①music_meta(音乐信息),有以下字段
'item_id', ' item_name', 'desc', 'total_timelen', 'location', 'tags'
音乐id , 音乐名称, 音乐描述, 音乐总共的时长, 发布的地区, 标签
②user_profile.data(用户信息)
'user_id', 'gender', 'age', 'salary', 'province'
③user_watch_pref.sml(用户听歌的行为)
'user_id', 'item_id', 'stay_seconds', 'hour'
用户id, 听的音乐id, 听歌的时长(秒) , 听歌时候的时间
music_data中有total_timelen字段,而user_watch中有stay_seconds字段,则
score=stay_seconds/total_timelen。假如用户听歌1800s,这首歌中总时长300s,则1800/300=6,说明这首歌用户听了6次。

本文介绍了一个音乐推荐项目的实现细节,包括如何计算用户对歌曲的喜好分数,利用倒排索引优化计算,以及数据存储和实时处理流程。数据存储在MySQL和HDFS中,用户行为数据实时采集并存储在HBase。特征处理和模型训练使用LR,保存特征映射用于线上打分和排序,最终实现多样化的推荐策略。
最低0.47元/天 解锁文章
113

被折叠的 条评论
为什么被折叠?



