2016 小结之用户所在行业画像

光阴似箭,日月如梭。又到一年年底,在过去的这一年里,用心做了几个画像标签的优化。越来越感觉到,要想有高质量的画像,即需要有高质量核心数据,又要有核心的行为表征区别开。摘取用户所属行业画像进行小结。

网络ID作为自然人在网络上的临时虚拟标记,体现了自然人本身以及起社会关系的多方面的属性。比如性别、年龄、工作信息等。
如果能够识别ID的工作单位所体现的行业职业等工作特征,那么是对该ID对应的非常关键与重要的刻画。
在大数据应用中对其有做强烈的需求。
社会属性-行业的23个标签作为用户画像的基础属性之一,应用面较广。比如:

  • 在搜索广告中作为广告主端的触发条件之一、在内容广告中圈人精准定向。
  • 在一些市场调研等报告中的分析纬度之一。
  • 垂直行业的特殊属性分析,识别起典型的场景与需求等:如IT+加班狗是过劳死的重灾区之一>_<。

因而,继续针对第一版挖掘出的社会属性-行业标签尝试进行迭代优化,期望优化标签的准确率与覆盖用户数;优化挖掘流程,获得更加高效的资源利用率。做成一个可复制性成本较高的画像标签之一。


基于众测样本的第一次优化迭代

简介

采用一些从第三方业务活动收集的数据映射出的行业样本,进行分类优化。
同时尝试挖掘大公司的用户优化现有结果。
最后,将分类结果中的较准确的部分,与基于规则产出的结果按优先级融合。
效果:

  • 提高了23个行业的整体分类精度(提高约10个点)与覆盖用户数(提高约30%),对下游应用方有正向收益。

样本分析

来源:基于众测产品线的用户群体,让部分参与人员按之前类似passport 的行业分类体系打上对应的标签,获得的一批样本。

样本中存在的问题与解决方法
  • 样本数量较少,用于训练的不到10w。
  • 解决方法:评估资源有效且数量有限,没有能够快速获取更多的样本的方法,先调研用这部分优化。
  • 样本没有覆盖全部23个行业。
  • 解决方法:缺少的部分仍然保留之前的规则识别方法的结果。
  • 样本分布方面,在占比最高的IT 类行业偏差太大,单独该TOP1行业的样本数占比达到36+%。
  • 解决方法:对TOP1行业样本采用undersampling(删除一部分)平衡。
  • 样本分布方面,在占比少
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值