推荐系统的数据依赖:
//一、推荐模型的特征需要用户侧和内容侧的各种标签
//二、召回策略需要获取用户侧和内容侧的各种标签
//三、内容分析和用户标签挖掘是搭建推荐系统的基石
1.内容分析
主题词(标题)
兴趣标签
文章主要词汇
热度与时效
作者来源
相似文章
总结:主要依据文章标题、文章类型(标签--文章类型的层次化文本分类)、文章内容高频词汇(概率)
2.用户标签
用户特征 兴趣特征(感兴趣的类别和主题、感兴趣的关键词、可能喜欢的兴趣特征)
身份特征(性别、年龄、职业等)
用户行为(文章点击率、广告点击率、阅读时间、点赞、评论、转发)
以下内容可根据需求考虑
//用户行为对整个推荐系统的贡献惩罚
//过滤噪声:过滤掉停留时间短的点击,打击标题党
//惩罚热点:用户在热门文章上的动作做降权处理
//时间衰减:随着用户动作的增加,老的特征权重随时间衰减,新动作贡献的特征权增加
//惩罚展现:推荐给用户的文章没有被电击,相关特征(类别,关键词,来源等)权重减少
用户环境(习惯阅读时间、常驻地点、整体阅读时间长度)
3.评估分析(根据需求考虑)
兼顾短期指标和长期指标
例:策略调整短期内用户觉得新鲜,但长期没有任何助益;或短期无影响,长期有益
兼顾用户指标和生态指标
例:为内容创作者提供价值,并有义务满足用户。加上广告主利益的考虑;多方考虑并平衡的过程
注意协同效应的影响,有时候需要做彻底的统计隔离
//协同效应如下
4.内容安全
平台社会责任:严格审核文章的内容
例:色情、谩骂、违法等
--------------------------------------华-----丽-----的-----分-----隔-----线--------------------------------------------
典型推荐特征
//评价内容的属性和用户是否匹配
相关性特征:关键词匹配、分类匹配、主题匹配、来源匹配
//
环境特征:地理位置、时间
//热度信息在用户冷启动的时候非常有效
热度特征:全局热度、分类热度、主题热度、关键词热度 (热度可单独搜索热度算法了解)
//通过用户行为分析不同用户的相似性
协同特征:点击相似用户、兴趣分类相似用户、兴趣主题相似用户、兴趣词相似用户
名称解释:
冷启动:当启动应用时,后台没有该应用的进程,这时系统会重新创建一个新的进程分配给该应用,这个启动方式就是冷启动。
热启动:当启动应用时,后台已有该应用的进程(例:按home键回到桌面,但是该应用的进程是依然会保留在后台,可进入任务列表查看),所以在已有进程的情况下,这种启动会从已有的进程中来启动应用,这个方式叫热启动。
召回策略:用户在两月内未在系统做出任何操作,则归为流失用户(未参加活动或阅读文章);
分析用户流失的原因,根据用户之前的行为习惯推送合适的消息达到召回的效果。
//一、推荐模型的特征需要用户侧和内容侧的各种标签
//二、召回策略需要获取用户侧和内容侧的各种标签
//三、内容分析和用户标签挖掘是搭建推荐系统的基石
总的来说就是:推荐系统来源于内容和用户的特征;
1.内容分析
主题词(标题)
兴趣标签
文章主要词汇
热度与时效
作者来源
相似文章
总结:主要依据文章标题、文章类型(标签--文章类型的层次化文本分类)、文章内容高频词汇(概率)
2.用户标签
用户特征 兴趣特征(感兴趣的类别和主题、感兴趣的关键词、可能喜欢的兴趣特征)
身份特征(性别、年龄、职业等)
用户行为(文章点击率、广告点击率、阅读时间、点赞、评论、转发)
以下内容可根据需求考虑
//用户行为对整个推荐系统的贡献惩罚
//过滤噪声:过滤掉停留时间短的点击,打击标题党
//惩罚热点:用户在热门文章上的动作做降权处理
//时间衰减:随着用户动作的增加,老的特征权重随时间衰减,新动作贡献的特征权增加
//惩罚展现:推荐给用户的文章没有被电击,相关特征(类别,关键词,来源等)权重减少
用户环境(习惯阅读时间、常驻地点、整体阅读时间长度)
3.评估分析(根据需求考虑)
兼顾短期指标和长期指标
例:策略调整短期内用户觉得新鲜,但长期没有任何助益;或短期无影响,长期有益
兼顾用户指标和生态指标
例:为内容创作者提供价值,并有义务满足用户。加上广告主利益的考虑;多方考虑并平衡的过程
注意协同效应的影响,有时候需要做彻底的统计隔离
//协同效应如下
4.内容安全
平台社会责任:严格审核文章的内容
例:色情、谩骂、违法等
--------------------------------------华-----丽-----的-----分-----隔-----线--------------------------------------------
典型推荐特征
//评价内容的属性和用户是否匹配
相关性特征:关键词匹配、分类匹配、主题匹配、来源匹配
//
环境特征:地理位置、时间
//热度信息在用户冷启动的时候非常有效
热度特征:全局热度、分类热度、主题热度、关键词热度 (热度可单独搜索热度算法了解)
//通过用户行为分析不同用户的相似性
协同特征:点击相似用户、兴趣分类相似用户、兴趣主题相似用户、兴趣词相似用户
名称解释:
冷启动:当启动应用时,后台没有该应用的进程,这时系统会重新创建一个新的进程分配给该应用,这个启动方式就是冷启动。
热启动:当启动应用时,后台已有该应用的进程(例:按home键回到桌面,但是该应用的进程是依然会保留在后台,可进入任务列表查看),所以在已有进程的情况下,这种启动会从已有的进程中来启动应用,这个方式叫热启动。
召回策略:用户在两月内未在系统做出任何操作,则归为流失用户(未参加活动或阅读文章);
分析用户流失的原因,根据用户之前的行为习惯推送合适的消息达到召回的效果。