本文代码仓库地址: 我的推荐系统学习求职之路
1.什么是用户画像系统
大数据时代人的数据化
什么是用户画像
用户画像是对现实世界中用户的数学建模。
源于现实,高于现实:用户画像是描述用户的数据,是符合特定业务需求的对用户的形式化描述。
源于数据,高于数据:用户画像是通过分析挖掘用户尽可能多的数据信息得到的。
用户画像的作用
2.构建用户画像系统
标签表示法(特征空间)
标签是某一种用户特征的符号表示,同时也是特征空间中的维度。
化整为零:标签是某一用户特征的符号表示;每个标签都是特征空间中的基向量。
化零为整:用户画像是一个整体,各个维度不孤立,标签之间有联系;基向量之间有关联,不一定是正交的。
用户画像可以用标签的集合来表示;是特征空间中的高维向量。
用户画像标签举例
用户画像系统的挑战
- 记录和存储亿级用户的画像
- 支持和扩展不断增加的维度和偏好
- 毫秒级更新
- 支撑个性化推荐、广告投放和精细化营销等产品
用户画像系统流程
用户画像处理流程
- ①明确问题和数据的匹配
- 追求需求和数据的匹配
- 明确需求
- 分类、聚类、推荐和其他
- 数据的规模、重要特征的覆盖度等
- ②数据预处理
- 数据集成,数据冗余,数值冲突
- 数据采样
- 数据清洗、缺失值处理和噪声数据
- ③特征工程
- 数据和特征决定了机器学习的上限