原标题:发挥大数据价值:精准的用户画像是怎样练成的?
上篇《让大数据接地气:用户画像在360商业数据部的应用实践》文章已经为大家详细介绍了360用户画像的内容。正如我们常说,“罗马不是一天建成的”一样,精准的用户画像也绝非一朝一夕就能练成的,它的背后需要庞大的数据基础和技术能力的支撑。
接下来,我们就继续探秘360用户画像,从技术层面深度剖析精准的用户画像是怎样练成的!
1.关键技术
在给用户打标签的过程中,人工手段显然是难以大规模开展的,因此,在实际中,我们一般采用机器学习算法,辅助少量人工的方式来实现。接下来对这其中用到的技术架构、技术难点等展开描述。
1.1 技术架构
数据的自动分类流程一般包括:数据预处理、数据建模、模型评测、业务应用等,如图十一所示:
(1)数据预处理:主要包括数据收集和清洗等。我们收集到的数据包括用户行为数据,如用户搜索行为、浏览行为;以及结构化数据,如商品库、网页库、APP库等;还有知识数据,如类目体系、词典数据等。为了得到高质量的数据,对收集的数据进行清洗,包括无效数据、噪声数据的过滤以及反作弊;以及数据结构化等。
(2)数据建模:包括训练样本的生成、特征提取、模型训练等,因为数据量庞大,单机无法满足需求,必然需要分布式计算。
(3)模型评测:模型评测主要通过测试集验证和线上小流量实验进行评估,根据测试反馈结果,优化模型。
(4)业务应用:目前360用户画像在运营分析、数据产品、广告投放系统等都有很好的应用。
图一 360用户画像系统流程
各个流程中,可能用到的关键技术见图十二。其中的难点不仅仅在于机器学习模型,还包括获得训练数据、特征工程、以及分类树层级节点之间的依赖问题等,接下来一一展开描述。
图二关键技术
1.2 样本自动标注
样本标注的工作量大,且主观性强,人工标注的方法推进较困难,实际中一般常采用少量人工+自动标注的方法。接下来以行业兴趣的搜索词自动分类为例,介绍一下常用的样本自动标注方法。
(1)搜索点击反馈:利用host进行标注,每个行业类目UV较大的host数目相比用户的搜索关键词量要小很多,可以人工获取少量不同类目下的host,利用搜索点击数据来标注搜索关键词类目。
(