深度学习 用户画像_发挥大数据价值:精准的用户画像是怎样练成的?

原标题:发挥大数据价值:精准的用户画像是怎样练成的?

上篇《让大数据接地气:用户画像在360商业数据部的应用实践》文章已经为大家详细介绍了360用户画像的内容。正如我们常说,“罗马不是一天建成的”一样,精准的用户画像也绝非一朝一夕就能练成的,它的背后需要庞大的数据基础和技术能力的支撑。

接下来,我们就继续探秘360用户画像,从技术层面深度剖析精准的用户画像是怎样练成的!

1.关键技术

在给用户打标签的过程中,人工手段显然是难以大规模开展的,因此,在实际中,我们一般采用机器学习算法,辅助少量人工的方式来实现。接下来对这其中用到的技术架构、技术难点等展开描述。

1.1 技术架构

数据的自动分类流程一般包括:数据预处理、数据建模、模型评测、业务应用等,如图十一所示:

(1)数据预处理:主要包括数据收集和清洗等。我们收集到的数据包括用户行为数据,如用户搜索行为、浏览行为;以及结构化数据,如商品库、网页库、APP库等;还有知识数据,如类目体系、词典数据等。为了得到高质量的数据,对收集的数据进行清洗,包括无效数据、噪声数据的过滤以及反作弊;以及数据结构化等。

(2)数据建模:包括训练样本的生成、特征提取、模型训练等,因为数据量庞大,单机无法满足需求,必然需要分布式计算。

(3)模型评测:模型评测主要通过测试集验证和线上小流量实验进行评估,根据测试反馈结果,优化模型。

(4)业务应用:目前360用户画像在运营分析、数据产品、广告投放系统等都有很好的应用。

图一 360用户画像系统流程

各个流程中,可能用到的关键技术见图十二。其中的难点不仅仅在于机器学习模型,还包括获得训练数据、特征工程、以及分类树层级节点之间的依赖问题等,接下来一一展开描述。

图二关键技术

1.2 样本自动标注

样本标注的工作量大,且主观性强,人工标注的方法推进较困难,实际中一般常采用少量人工+自动标注的方法。接下来以行业兴趣的搜索词自动分类为例,介绍一下常用的样本自动标注方法。

(1)搜索点击反馈:利用host进行标注,每个行业类目UV较大的host数目相比用户的搜索关键词量要小很多,可以人工获取少量不同类目下的host,利用搜索点击数据来标注搜索关键词类目。

(

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值