作者·黄崇远
『数据虫巢』
全文共3549字
题图ssyer.com
“ 好的东西适合记下来,尤其是别人的炼丹心得。”
参加了2021年全球架构师大会(GIAC),好些年没有参加类似的大会了,不过花厂子里的钱去参加一下,本没有抱有很大的期望,不过意外有所小收获,也不是纯粹花2000大洋去蹭饭的了。
再结合本身画像主题的一些整理,所幸就结合着记录一下了,对画像标签感兴趣,或者说对内领域炼丹感兴趣的读者可以一观之。
01
画像的构成与作用
这里先不对画像按产品逻辑去划分,比如什么基础属性、什么兴趣标签、什么行为挖掘、什么状态之类的,这些是产品需要考虑的。
从技术的视角,其实本质上就是标签,再说下去就是标签的生成逻辑的区分,除了人肉标记的标签,大体上分为统计逻辑生成的画像标签和通过机器学习模型预测的标签两大类。
为何要做两类生产方式的区分,在于标签的含义目标,基于统计逻辑大体上能保持标签名本身的含义,并且其可解释性强,一目了然,这是所谓当前一些智能营销也好,广告主也好,最喜欢的类型。
而对于通过模型预测的逻辑来说,本身就是因为通过常规逻辑描述不够准确,又或者说有其他更深层的表达含义,所以需要大体上通过正负样本加有监督的方式将相关的人群打上类似的标记。
结合用途,用于做营销包括广告定向,是广告以及营销领域常用的方式,在其他更深层的,例如推荐系统,例如广告的召回、粗排、精排等,甚至是其他更深度的预测场景等,用用户的标签做特征则再常见不过了。
所以,画像标签这玩意儿,看着基础,但确实是很多应用场景都绕不开的一个技术场景。
02
基于统计的画像标签
其实基于统计的画像标签,说直白点是有点无聊,简单粗暴的就直接算频次算行为时长,再复杂点的就加权重做时间衰减。
总之,大概上把行为类型、行为频度、行为时长、时间衰减