摘要:大数据的根基,它圆满
地笼统
出一个用户的信息全貌,为进一步精准、快速地剖析
用户行为习气
、消费习气
等重要信息,提供了足够的数据基础
,奠定了大数据时期
的基石。 微博作为最大的中文社交媒体,具有
数以“PB”(1024 TB)计的用户信息,从海量的用户信息中发掘
每个用户的社交特性、潜在才干
及兴味
等信息,是微博为用户提供愈加
人性化效劳
的基础
。微博大数据经过近两年不时
地调整、磨合、优化,针对社交媒体特性,研发构建了一整套完好
的用户画像体系。该体系涵盖才干
标签、兴味
标签、关系及密切
度、信誉
质量和自然属性五大部分
,完好
而全面地完成
了用户信息标签化。同时,大数据的用户画像体系已应用于微博众多的业务场景中,并随着微博业务的展开
不时
完善升级
,将“大数据”概念落地落实。 为了便当
与大家交流讨论
,大数据用户团队特别整理了用户画像系列文章,主要从微博的角度动身
,重点引见
社交媒体平台中用户的特性,微博业务展开
中用户的建模刚需,以及不同纬度建模过程中遇到的问题和处置
计划
。 引言 在以微博为代表的社交媒体平台中,每一个用户都是网络中的一个具备发布、传播、消费信息功用
的节点。其中一部分
节点具备发布优质原创信息的功用
,并经过
社交网络将信息快速传播,即才干
节点;而其他大部分
节点则偏重
于消费信息,同时传播其感兴味
的信息,即消费节点。微博平台的这种信息传播方式使得才干
节点从原创信息传播中取得
对网络的影响力,并打造自身
的品牌,从而进一步促使更多节点消费其原创信息;而这信息传播方式也让消费节点在消费信息的同时发掘
其自身
兴味
,促进其对同类信息的消费,从而提升才干
节点的生动
性。因而
,促进优质信息的快速传播是我们的首要任务,而挖掘
出具备原创信息发布才干
的节点,并为其打上相应的才干
标签是后续工作的前提和基础
。 本文主要从用户标签体系、才干
标签的应用场景、才干
标签挖掘
框架、关键技术点四个方面对用户才干
标签的整体挖掘
框架和挖掘
算法中止
引见
。 一、用户标签体系: 微博作为最大的中文社交媒体,每天都有丰厚
的信息在其上发布与传播,从某个话题下的相关信息中聚合出一个或者多个具有代表性的词语作为标签,能够
便当
对用户与内容的查找与剖析
。因而
,关于
在微博上能够
聚合出的数据量
庞大的标签库而言,为了有效的梳理标签,便当
挖掘
工作的中止
,需求
构建一个明晰
完好
的用户标签体系。图1是目前曾经
构建的三层标签体系,其左半部分
叙说
了三个层级标签的数据量
,右半部分
则对标签层级中止
举例阐明
。
图1:三层用户标签体系 如图1左半部分
所述,在当前的三层用户标签体系中,共存在50多个一级标签,1000多个二级标签和近30万的三级标签;其中一级标签是大类标签,相似
于新闻客户端中常见的频道(如右半部分
的财经、互联网等),二级标签是从属
于一级标签的细分(如右半部分
中财经下的股票,互联网下的互联网安全
等),三级标签是对二级标签的进一步细分,能对应到一级标签下的实体对象(如财经下某一支细致
的股票,互联网下的某一家细致
公司等)。 在所肯定
的标签体系下,我们需求
对每一个粒度的标签聚合信息,细致
到用户才干
标签,就是要在每个标签下聚合具有该细分标签才干
的用户群体。 二、才干
标签的应用场景 目前才干
标签曾经
应用于微博众多业务场景中,其中两个典型的业务场景是“微博找人”和“抢手
微博”,分别如图2和图3所示。
图2:为“微博找人”业务直接举荐
各个行业的专家账号
图3:“抢手
微博”内容来源于挖掘
的各个范畴
的专家账号 在找人业务场景中,用户能够
直接发现各垂直范畴
的专家账号,经过
关注专家账号能够
直接获取各垂直范畴
的优质内容。在抢手
微博业务场景中,内容流都出自于垂直范畴
的专家账号:一个账号经过
发布某个范畴
的优质内容构成
初步影响力,大数据计算出其所属范畴
后,抢手
微博会在对应范畴
中止
内容举荐
,使该账户逐步
生长
为专家账号,从而构成
一个产品闭环。才干
标签的主要作用是构建各种优质语料的重要基础
数据源,经过
才干
标签圈定专家用户群体,提取出优质语料等相关信息;在大部分
状况
下,才干
标签不直接在业务场景中展示
。
三、才干
标签挖掘
框架 才干
标签挖掘
,即对用户标签体系中的才干
标签中止
挖掘
。细致
的,在整体用户才干
标签挖掘
流程中,第一
经过
用户关系数据(主要是分组,用于表现
粉丝关于
用户才干
的认可度)、用户内容数据(主要是原创博文,用于表现
用户自身
的专业才干
)、用户行为数据(主要是转、评、赞等互动信息,用于表现
该用户在相关范畴
内的影响力)挖掘
出用户的才干
标签及其基础
权重;第二
经过
引入用户的自填信息、认证信息作为才干
标签权重的调权因子参与计算;接下来经过
多个维度的定向挖掘
系统和运营反响
系统中止
才干
标签的校正和增加才干
标签的掩盖
。最终
,将挖掘
出来的用户才干
标签及权重输出至用户才干
标签库,供上层业务调用。整体的挖掘
框架如图4所示:
图4:用户才干
标签挖掘
整体框架 四、才干
标签挖掘
关键技术点 本节主要引见
才干
标签挖掘
中触及
到的标签词集聚
、用户影响力、时间窗口和时间衰减三个关键技术点。 标签词集聚
用户的分组信息即用户为关注对象打上的标签作为用户关系数据引入到挖掘
过程中,由于标签属于UGC,就会构成
同一个标签主题有多种不同的表达方式,将多种不同的表达方式聚合起来,构成
一个标签集,并且映射到我们的标签体系中,能够
有效地提升才干
标签的精确
率和掩盖
率。 第一
将分组信息经过
火
类模型划分为强关系型(同窗
、同事等)和兴味
型(互联网、财经等)两类,并将兴味
型分组信息作为我们的基础
预料
。 接下来经过
聚类、关联等相关算法中止
标签词(分组信息)的聚合; 最终
将聚合的标签集依据
相关水平
等因子划分为高相关和低相关两类。 以互联网标签为例,聚合出来的最终结果如表1所示:
表1:互联网相关标签集 用户影响力 用户影响力指的是用户在某个特定标签下的影响力,因而
影响力计算的边境
(如图5所示)是标签对应的兴味
用户群体(包含该标签的才干
用户),即对该标签所对应的范畴
有一定了解
的用户群体。细致
地,我们将其它用户对某个用户原创博文的转、评、赞等互动行为作为基础
数据,应用
pagerank迭代算法中止
该用户影响力的计算。
图5:用户影响力计算边境 其中,同范畴
用户的影响力大小是由其它用户对相关博文的转、评、赞等互动行为依照
一定的权重比计算得到的。所谓相关博文就是指用户发表的属于标签对应范畴
的原创博文(即打上内容标签的原创博文,该部分
属于大数据内容团队担任
,后续会有相关文章引见
)。 时间窗口和时间衰减 思索
到原创博文的消费价值和计算代价,关于
用户内容数据,我们选取了用户近一段时期内的原创博文作为基础
语料中止
计算。 关于时间衰减,我们分别
牛顿冷却定律和微博的业务需求推导出相应的衰减公式,并经过
衰减效果的对比
,肯定
了相关衰减参数的数值,最终得出了用户才干
标签内容权重的时间衰减函数,如图6所示。
图6:用户才干
标签内容权重衰减函数 五、小结 当前我们主要从社交关系、原创内容、影响力三个维度来辨认
用户的才干
标签以及计算相应的权重,同时经过
用户的自填信息、认证信息等其他信息中止
调权。关于
某些特定的垂直范畴
或某类具有显然
特征的用户群体,我们经过
定向挖掘
系统来中止
处置
,然后融合
到最终的用户才干
标签库中止
输出。 相关于
用户才干
标签,用户兴味
标签触及
到的上层业务愈加
普遍
,依赖的数据也愈加
复杂多变,在下一篇用户画像系列文章中,我们将会细致
引见
用户兴味
标签的挖掘
流程。 本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者一切
,如涉作品、版权和其他问题请联络
「我们」处置
。
数极客是新一代用户行为分析与数据智能平台,支持用户数据分析、运营数据分析、留存分析、路径分析、漏斗分析、用户画像、SEM数据分析等16种分析模型的数据分析产品,支持网站统计、网站分析、APP统计、APP分析等分析工具,以及会员营销系统和A/B测试工具等数据智能应用,支持SAAS和私有化部署,提升用户留存和转化率,实现数据驱动增长!
【独家稿件及免责声明】本站原创文章如需转载请联系我们,未经书面许可禁止转载,本站转载文章著作权归原作者所有,如有侵权请联系:。