用户画像呀

最新推荐文章于 2023-03-16 18:21:52 发布

春风不会绿大地

最新推荐文章于 2023-03-16 18:21:52 发布

阅读量117

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/MRzhenglea/article/details/118752556

版权

大数据专栏收录该内容

40 篇文章 1 订阅

订阅专栏

理解

用户信息标签化。对特征进行分析，或推测其特征，一般用于电商，新闻（个性化推荐）

数据存储

1 metastore 元数据存储：一般存储都有哪些标签，和标签的级别或者权重(存储与mysql)
2 tags 标签数据存储：用户id 和标签行为（存储与Hbase和ES）
3 HBase 每个用户个体画像
4 Elasticsearch/Solr 索引中，方便依据不同标签条件组成或查询出相应用户群体

用户数据来源

第一类：用户基本信息
第二类：用户业务数据。

构建用户画像基础

数仓->构建标签->用户画像->营销推荐

数据转移

BulkLoad模式和put模式的区别：
put：先把Datas封装成put对象，然后put对象存储表 1 先写入WAL预写日志，然后存储到MemStore 最终保存在StoreFile文件（Hfile）
BulkLoad模式：把datas数据写入HFile文件，修改格式HFileOutPutFormat2 ,将文件放入Hregion中。rowkey必须是单个字段，否则就要自己写

minor complation 是将100个hfile文件合并，major Compaction是将所有的文件合并。
合并后的排序方式 rowkey>family>column,针对每个Hfile文件中数据是有序的，编写mapreduce或者spark时，必须将数据排序，否则时读取不到region
每一个标签就是一个spark程序，写一个sparkApplication运行以后给所有用户打上性别标签的值。

Oozie

批任务集：Bundle ,(coordinator(调度器)，WorkFlow 工作流)
workflow的工作流组成
（第一部分）workflow.xml配置
start
Action Node 每个action运行需要启动，可以有多个Action,相互之间依赖，每个Action运行需要启动MR加载
end
(第二部分) lib,存储依赖第三方jar包
比如运行spark自带圆周率程序，将其jar放在目录中即可
workflow.xml和lib需要存储至HDFS目录中
（第三部分） job.properties配置
HDFS文件系统
每个job对应目录（workflow.xml和lib目录）
LocalFS文件系统
每个job对应目录（job.properties)

标签的存储与计算

解决的问题：1)如何解决频繁新增和删除标签
2)如何解决不同标签更新时间和频率不同的问题。
在这里插入图片描述 1.业务系统用户相关业务数据ETL迁移到HBase表中
sqoop mr spark 批量最好bulkload
2.确定开发标签，先在标签管理平台进行注册，然后开发标签模型的应用程序，最终运行应用，给用户打上标签，存储至HBase表中。

推荐算法

1 加载所有数据
2 整理user对item的评分矩阵
初始化user对item的评分矩阵，并全局存储，每一行代表一个用户，每一列代表一部电影。

  |m1|m2  |m3|

u1:|4|5|
u2:|-1|5|

3 整理item与item的相似度，形成相似度矩阵
4 召回算法：每部电影最相似的topN电影
5 排序，使用用户对电影的评分作为权重，为召回的电影列表进行排序
例如：用户给三部电影打了1,2,3分，这三种电影分别找相似度最大的2部电影，然后1大众评分，2大众评分，3*大众评分，把用户的评分作为权重，最终给这些东西进行排序，作为最终的推荐结果

春风不会绿大地

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用户画像呀

理解用户信息标签化。对特征进行分析，或推测其特征，一般用于电商，新闻（个性化推荐）数据存储1 metastore 元数据存储：一般存储都有哪些标签，和标签的级别或者权重(存储与mysql)2 tags 标签数据存储：用户id 和标签行为（存储与Hbase和ES）...
复制链接

扫一扫