目录
概念定义:
1、PGC(Professionally-generated Content)又叫PCC,是指专业生产内容。由专业人士对内容
的个性化.PGC是对内容进行划分的概念,指更加专业化的内容、优质化的内容,内容比较专
业。
2、UGC(User-generated Content)指用户生产内容。就是用户自行生产内容,由网民、普通用
户主动创造并上传的内容,是以粉丝为中心,以用户的互动方式为内容的。UGC是鼓励每一
位普通访客参与互动起来,才能打开思维方式,为目标站点不断地输出内容。
一、作者倒排
1、对用户关注的作者,召回作者最新上传的视频;
2、根据用户观看历史中出现的作者,召回这些作者的头部视频,送到CTR排序后取头部视频,作为召回结果;
二、优质pugc作者筛选
1、根据后验信息(如点击率、观影时长等消费数据)计算出作者的得分,从中筛选出优质pugc作者,在协同过滤、embedding模型等中辅助训练,如作为物品特征 / 用户特征 参与模型训练,或者在协同过滤计算相似度时 作为权重,或者在大量召回结果中作为阈值、对优质pugc作者置顶;
2、根据先验信息(通常是运营配置的一批特殊pugc),单独出一路召回,不送排序,直接强插;
三、作者维度的兴趣探索
1、通过计算作者维度的共现矩阵或embedding相似度,找到用户可能会感兴趣的相似作者,召回其头部视频;
四、作者分层
1、根据粉丝数、更新频率、内容垂直度、原创度、创作形式、账号类型,统一提炼作者评分综合指标,根据综合指标分数,为作者打分并分层
2、在爬虫时,对头部作者高频爬取,低质作者低频爬取,以保证现有资源的情况下提升爬虫端的数据源质量
3、分层有利于筛选优质PGC作者,在做兴趣探索时,也可以进行分层的作者探索,或低质向优质作者的单向探索