推荐系统 --- 数据工程 --- 用户画像 --- 解决方案

用户画像建模 — 用户定量画像

  • 定量画像包括:用户基础变量、兴趣偏好等可量化的数据特征
  • 用户画像的颗粒度:即用户画像应该细化到何种程度用户画像越细化,有利于提高推荐系统的准确定。但是需要越细化的用户数据,提高了用户画像建模的成本,同时也会导致用户画像适用性降低。
  • 数据来源
    • 显示收集方式:比如说用户问卷,准确度高,无须做过多预测
    • 隐式收集方式:比如说技术手段精度较差,但是可以通过大量用户信息的收集和挖掘可相应提高准确性可以作为显示收集方式的补充
    • 效度和信度验证
      • 信度(reliability)即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。从另一方面来说,信度就是指测量数据的可靠程度。
      • 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。效度分为三种类型:内容效度、准则效度和结构效度。

用户画像建模 — 用户定性画像

  • 定性画像包括:基本特征、行为刻画、兴趣模型和视频表征等
  • 标签体系
    • 核心问题:
      • 如何定义和表示标签?包括标签名称、标签类别、标签值的取值范围等
      • 如何解释标签?主要是对标签的语义信息进行描述,从语义上给出标签的解释
      • 如何推理标签?主要是定义相应的推理规则,从而实现标签之间的推理
      • 如何验证标签?包括标签的定义是否合理,标签关系是否一致、正确性等
    • 其他
      • 基于标签的基础之上,对用户进行调研,根据目标、行为和观点的差异,将用户区分为不同的类型,在每种类型中抽取出典型特征
  • 基于知识的用户定性画像分析
    • 知识工程:利用本体对用户画像中的标签进行表示、验证、推理和解释等。具体来说,包括对用户和视频的标签,以及它们之间的关系进行形式化的表述,从语义层面描述视频、用户及其兴趣特征
    • 本体论:哲学上的一个学科,是研究客观事物存在和组成的通用理论。知识工程中的本体侧重对特定工程领域中的知识进行建模,提供某个专业领域中概念的词表,以及概念间的关系,是在语义层次对信息进行的形式化描述,从而形成一个庞大而有效的知识网络
    • 工程实践
      • Uschold骨架法
        • 首先确定本体应用的目标和范围
        • 然后经过本体的分析、表示、评价等过程,进一步判断本体是否符合要求
      • Methontology
        • 管理阶段:本体开发的设计、控制和质量保证
        • 开发阶段:包含规格说明、概念化、形式化和执行
        • 维护阶段:知识获取、系统集成、知识评价、产生文档和配置管理
    • 本体开发工具
      • Pretege
    • 案例
      • 视频
        • 用户定性画像
          • 用户维度
            • 用户特征:姓名、年龄、职业
            • 用户行为:视频点播、视频浏览
            • 用户兴趣偏好:观看时间偏好。。。
          • 视频维度
            • 视频特征:类别、导演、主题
        • 知识类型
          • 用户和视频特征有关的属性知识
          • 反应用户偏好的规则知识:
            • 其中规则的左部一般包括用户、视频的属性特征,以及用户观看视频的行为事实
            • 规则的右部则是有关用户兴趣偏好的结论
          • 用于推理和确保关系完整性、正确性的约束性知识。
    • 推理引擎
      • Jena
  • 用户定性画像的构建
    • 本体结构
      • 类(包含若干子类,形成一定的类层次结果):对领域中具有相同性质的概念或术语的一种抽象
      • 属性:对类概念的描述
      • 实例:描述本体中类的具体对象
      • 公理:本题中的永真式,用于描述类概念间的约束条件,并且这一条件在领域中是永远成立的。
      • 推理规则:对本体所在领域中的专家知识的一种形式化表示,一般写为类似产生式的条件结论形式。
    • 工程实践:标准化的表达方式和规范化的工作步骤
      • 构建过程
        • 需求分析:对要解决的问题进行详细的分析,弄清楚问题的要求
          • 包括需要输入什么数据,最后应输出什么
          • 就用户画像构建而言,在建立本体前必须先确定将要覆盖的专业领域、范围和应用目标,本体应该在哪些方面发挥作用
          • 根据构建的用户画像设定一系列相关的问题,检测本体的知识是否能够完全覆盖和解决
        • 信息的收集和处理,包括当前数据范围内存在的资源。在此基础上,将与视频,以及用户相关的资源进行读取、整理、分析,提取出分类、属性和对应的属性值,并添加相应的公理和约束。
        • 根据信息处理结果和本体范围,按照文档化的信息内容,利用本体描述语言和本体构建工具进行本体的构建。构建过程中需要遵循一定的原则:
          • 尽可能使用标准术语
          • 本体应当保持前后一致,即支持与其定义相一致的推理
          • 本体将提供一个可共享的词汇表,这个可共享的词汇表可以为预期的任务提供概念基础
          • 本体构建过程中应当使用多种概念层次,同层次的概念之间应当保持最小的语义距离并采用多种继承机制来增强表达能力
      • 关键步骤
        • 构建领域词汇表:在设计的过程中,需要考虑知识共享
          • 收集所有有用的领域概念、属性和实例等,这些词汇对应用户画像中的各类标签。
          • 领域词汇表一般包括:类词汇表、属性词汇表(对象属性词汇表和数据属性词汇表)
        • 构建类与类之间的结构
          • 领域概念的分类层次是将概念进行分类组织,用于描述领域概念间的类属关系。
          • 设计方法:自顶向下、自底向上和综合法
        • 定义属性
          • 对象属性:约束两个类实例间的关系
          • 数据属性:约束类的实例
        • 定义实例
          • 如何类和属性是本体的骨骼,实例则是本体的血肉
        • 定义约束公理和推理规则
          • 本体的约束公理是OWL语言类公司的核心部分,用来详细描述类概念之间所存在的各种约束条件
  • 定性画像知识的存储
    • 存储方式
      • 直接存放在内存
      • 文本存储
      • 数据库存储
    • 工具
      • Jena
  • 定性知识画像的推理
    • 本体推理机
      • 本体解析器:本体解析
      • 查询分析器:用户查询明星的接口
        • SparQL
      • 推理引擎:核心
        • RDFS、OWL中内置的规则,包括类的公理、属性公理等语言自身定义的关系限制,是进行本体分类等操作的主要方法
        • 自定义规则
      • 结果输入

群体用户画像分析

  • 概念:针对目标用户群体真实特征的勾勒,是群体用户的综合原型。通过聚类方式,将具有相同特征的用户划归成同一个族群,进而发现核心的、规模较大的用户群。在设计推荐系统的时候,优先满足核心用户群的需求,进一步在不存在冲突的情况下尽量满足次要用户群的需求
  • 步骤
    • 用户画像获取
      • 线下分析
      • 互联网大数据分析
      • 用户访谈和问卷调研
      • 推荐系统的数据统计模块获得
    • 用户画像相似度计算
      • 定量相似度计算:需要对不同数据进行归一化操作
        • 欧氏距离
        • 曼哈顿距离
        • 余弦相似度
      • 定性相似度计算
        • 将定性标签映射为定量标签
        • 直接采用基于概念的相似度计算方法
          • 基于概念信息容量法
          • 基于概念距离法
            • 根据本体来计算
            • 利用大规模的语料库进行统计
      • 综合相似度计算
    • 用户画像聚类:将用户画像间的相似程度,聚为一类
      • 各种聚类算法
    • 群体用户画像生成:针对不同类别的用户分别建立有代表性的典型用户画像

用户画像管理

  • 用户画像的表现形式,常见:
    • 关键词法,即一组代表用户属性的特征词
    • 评分矩阵法,以二维矩阵的行来表示用户,列表示特征项目,行列的交叉点为某用户对某特征项的评分
    • 向量空间表示法,给出一组关键词及对应的比重
    • 本体表示法,以本体模型存储用户的属性和关系
  • 存储机制
    • 关系型数据库
    • NoSQL数据库
    • 数据仓库
  • 查询机制
  • 定时更新机制
    • 获取实时用户信息
      • 静态信息数据
      • 动态信息数据
    • 更新触发条件
      • 设置一个阈值
      • 设置一个时间周期
      • 基于新增数据决定是否更新
    • 更新机制
      • 完全更新
      • 增量更新
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值