用户画像呀

理解

用户信息标签化。对特征进行分析,或推测其特征,一般用于电商,新闻(个性化推荐)

数据存储

1 metastore 元数据存储 :一般存储都有哪些标签,和标签的级别或者权重(存储与mysql)
2 tags 标签数据存储 :用户id 和标签行为 (存储与Hbase和ES)
3 HBase 每个用户个体画像
4 Elasticsearch/Solr 索引中,方便依据不同标签条件组成或查询出相应用户群体

用户数据来源

第一类:用户基本信息
第二类 :用户业务数据。

构建用户画像基础

数仓->构建标签->用户画像->营销推荐

数据转移

BulkLoad模式和put模式的区别:
put: 先把Datas封装成put对象,然后put对象存储表 1 先写入WAL预写日志,然后存储到MemStore 最终保存在StoreFile文件(Hfile)
BulkLoad模式:把datas数据写入HFile文件,修改格式HFileOutPutFormat2 ,将文件放入Hregion中。rowkey必须是单个字段,否则就要自己写

minor complation 是将100个hfile文件合并,major Compaction是将所有的文件合并。
合并后的排序方式 rowkey>family>column,针对每个Hfile文件中数据是有序的,编写mapreduce或者spark时,必须将数据排序,否则时读取不到region
每一个标签就是一个spark程序,写一个sparkApplication运行以后给所有用户打上性别标签的值。

Oozie

批任务集:Bundle ,(coordinator(调度器),WorkFlow 工作流)
workflow的工作流组成
(第一部分)workflow.xml配置
start
Action Node 每个action运行需要启动,可以有多个Action,相互之间依赖,每个Action运行需要启动MR加载
end
(第二部分) lib,存储依赖第三方jar包
比如运行spark自带圆周率程序,将其jar放在目录中即可
workflow.xml和lib需要存储至HDFS目录中
(第三部分) job.properties配置
HDFS文件系统
每个job对应目录(workflow.xml和lib目录)
LocalFS文件系统
每个job对应目录(job.properties)

标签的存储与计算

解决的问题:1)如何解决频繁新增和删除标签
2)如何解决不同标签更新时间和频率不同的问题。
在这里插入图片描述1.业务系统用户相关业务数据ETL迁移到HBase表中
sqoop mr spark 批量最好bulkload
2.确定开发标签,先在标签管理平台进行注册,然后开发标签模型的应用程序,最终运行应用,给用户打上标签,存储至HBase表中。

推荐算法

1 加载所有数据
2 整理user对item的评分矩阵
初始化user对item的评分矩阵,并全局存储,每一行代表一个用户,每一列代表一部电影。

  |m1|m2  |m3|

u1:|4|5|
u2:|-1|5|

3 整理item与item的相似度,形成相似度矩阵
4 召回算法:每部电影最相似的topN电影
5 排序,使用用户对电影的评分作为权重,为召回的电影列表进行排序
例如:用户给三部电影打了1,2,3分,这三种电影分别找相似度最大的2部电影,然后1大众评分,2大众评分,3*大众评分,把用户的评分作为权重,最终给这些东西进行排序,作为最终的推荐结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值