理解
用户信息标签化。对特征进行分析,或推测其特征,一般用于电商,新闻(个性化推荐)
数据存储
1 metastore 元数据存储 :一般存储都有哪些标签,和标签的级别或者权重(存储与mysql)
2 tags 标签数据存储 :用户id 和标签行为 (存储与Hbase和ES)
3 HBase 每个用户个体画像
4 Elasticsearch/Solr 索引中,方便依据不同标签条件组成或查询出相应用户群体
用户数据来源
第一类:用户基本信息
第二类 :用户业务数据。
构建用户画像基础
数仓->构建标签->用户画像->营销推荐
数据转移
BulkLoad模式和put模式的区别:
put: 先把Datas封装成put对象,然后put对象存储表 1 先写入WAL预写日志,然后存储到MemStore 最终保存在StoreFile文件(Hfile)
BulkLoad模式:把datas数据写入HFile文件,修改格式HFileOutPutFormat2 ,将文件放入Hregion中。rowkey必须是单个字段,否则就要自己写
minor complation 是将100个hfile文件合并,major Compaction是将所有的文件合并。
合并后的排序方式 rowkey>family>column,针对每个Hfile文件中数据是有序的,编写mapreduce或者spark时,必须将数据排序,否则时读取不到region
每一个标签就是一个spark程序,写一个sparkApplication运行以后给所有用户打上性别标签的值。
Oozie
批任务集:Bundle ,(coordinator(调度器),WorkFlow 工作流)
workflow的工作流组成
(第一部分)workflow.xml配置
start
Action Node 每个action运行需要启动,可以有多个Action,相互之间依赖,每个Action运行需要启动MR加载
end
(第二部分) lib,存储依赖第三方jar包
比如运行spark自带圆周率程序,将其jar放在目录中即可
workflow.xml和lib需要存储至HDFS目录中
(第三部分) job.properties配置
HDFS文件系统
每个job对应目录(workflow.xml和lib目录)
LocalFS文件系统
每个job对应目录(job.properties)
标签的存储与计算
解决的问题:1)如何解决频繁新增和删除标签
2)如何解决不同标签更新时间和频率不同的问题。
1.业务系统用户相关业务数据ETL迁移到HBase表中
sqoop mr spark 批量最好bulkload
2.确定开发标签,先在标签管理平台进行注册,然后开发标签模型的应用程序,最终运行应用,给用户打上标签,存储至HBase表中。
推荐算法
1 加载所有数据
2 整理user对item的评分矩阵
初始化user对item的评分矩阵,并全局存储,每一行代表一个用户,每一列代表一部电影。
|m1|m2 |m3|
u1:|4|5|
u2:|-1|5|
3 整理item与item的相似度,形成相似度矩阵
4 召回算法:每部电影最相似的topN电影
5 排序,使用用户对电影的评分作为权重,为召回的电影列表进行排序
例如:用户给三部电影打了1,2,3分,这三种电影分别找相似度最大的2部电影,然后1大众评分,2大众评分,3*大众评分,把用户的评分作为权重,最终给这些东西进行排序,作为最终的推荐结果