用户画像
文章平均质量分 79
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
用户画像系列——在线服务调优实践
从调优来看,虽然能通过增大机器资源4c 8g——8c 16g,同时通过调整jvm参数让full gc 能够达到一周一次,但是对于接口波动还是存在问题,主要原因就是某些id对应的value值较大,所以读取和解析耗时严重,因此最终方案应该考虑去对value进行拆分存储,避免一次性取出来过大的数据,将常用数据和非常用数据进行拆分。推荐场景:根据不同的用户推荐不同的内容,做到个性化推荐,需要读取画像的一些偏好数据,推荐感兴趣的内容。最终优化之后,full gc 维持在1周一次,但是仍然有接口耗时毛刺。原创 2024-01-23 17:16:46 · 1038 阅读 · 0 评论 -
用户画像系列——HBase 在画像标签过期策略中的应用
例子2:一个账号在购物或者看视频的时候会登录很多个设备,比如说 电商平台网页版、手机版(安卓、ios)或者pad 版本等等,但是可能随着用户换设备(换手机、电脑或者pad),之前的设备信息再进行存储也没有意义,毕竟那个手机或者电脑可能已经不在使用了,至少不挂在这个账号体系下了。例子1:因为疫情原因,上线一个平台(和疫情相关),然后用户关注了疫情这个平台,有一个标签来标识用户是否关注疫情,但是随着政策放开,这个标签显然对公司来说是没有用随着疫情放开之后,而且还浪费存储成本,需要单独弄一个字段来进行标识。原创 2023-04-26 11:55:40 · 613 阅读 · 0 评论 -
用户画像系列——利用github action自动爬取手机数据
(2)利用其他公司实现自动化爬取,比如:利用gitee 流水线、github action,gitee 流水线目前只有200分钟免费,因此考虑使用github action 来处理。》一文中,讲解在一些中小型公司如何数据不全的情况下,如何利用现用数据结合一些外部数据来完善画像标签。这样就完成了配置,我们就可以利用github action 来做到自动化爬取手机价格数据了。首先实现好爬虫代码,保证本地测试可运行,提交到githup 上,新建action。原创 2023-03-29 13:38:36 · 432 阅读 · 0 评论 -
用户画像系列——在一些中小型公司数据不全的情况下做画像怎么做呢?
这篇文章主要分享在一些中小型公司做用户画像,但是画像数据不全的情况下怎么做,大家都知道比如说:在支付宝或者一些银行,有你的身份证数据、有的存款数据,很容易拿到年龄,和你的资产情况,但是在一些其他的公司怎么办呢?当一个用户访问京东或者淘宝等电商网站或者玩王者荣耀的时候甚至看视频的时候,都会上报设备相关的信息,比如设备的机型信息,存储信息等,数据如下表所示,但是实际是得不到手机品牌机型等数据的,只有处理之后才能得到。:爬取中关村手机的信息数据,得到如下表格。原创 2023-02-15 21:13:51 · 271 阅读 · 0 评论 -
用户画像系列——Lookalike在营销圈选扩量中的应用
比如说:发现圈选的目标用户5000里面,有很多相似的地方,喜欢美妆对于满减活动也比较敏感,然后平台里面10w 用户也有不少男性用户虽然年龄超过30岁了,但是对于美妆也非常感兴趣(可能是给女朋友买?上文中提到的5000个用户称呼为“种子用户”,平台用户10w称之为所有用户(DMP用户),然后我们扩充出来的3w用户称之为“相似用户”或者"扩展用户"(5)根据种子用户关联用户向量特征得到可以匹配上的用户的向量特征,种子用户id,种子用户向量。根据用户标签命中不同的策略,比如说:高消费人员有奢侈品入口通道。原创 2022-11-08 14:52:35 · 675 阅读 · 0 评论 -
用户画像系列——布隆过滤器在策略引擎中的应用
比如:当某个用户第一次进入某个平台,会给你弹窗有什么优惠,新用户优惠券等等;或者某个用户消费金额极高,达到一个阈值,认为该用户有极大的消费能力,可以开放奢侈品入口,即:淘宝上的奢侈品频道是根据之前有消费过奢侈品、且高价值的用户才开放的。这篇文章分享的是用户画像在策略引擎中的应用。首先来了解下策略引擎是干什么的?根据用户标签命中不同的策略,比如说:高消费人员有奢侈品入口通道。通过用户标签给用户推荐合适的商品或者内容。原创 2022-11-15 18:10:24 · 458 阅读 · 2 评论 -
用户画像系列——推荐相关核心标签(偏好类)
我们经常在逛购物网站或者刷抖音、听网易云音乐的时候,会有猜你喜欢或者为你推荐这样一个功能,而这依赖的就是用户画像的偏好类标签:比如说明星偏好(喜欢某个明星或者歌手的作品)、类型偏好(比如说:喜欢美妆类、喜欢美食类)原创 2022-10-19 15:57:02 · 6032 阅读 · 3 评论 -
用户画像系列——数据中台之OneID (ID-Mapping)核心架构设计
一.引言大家在上网的过程中是不是经常有这样的体验,我在百度(或者京东、淘宝)上搜索一件商品(比如说:我搜索了一台iphone 手机看了看,但是没买),奇怪的是过两天,我竟然在某视频平台或者某网页上又看到了它?而且更加奇怪的是,我明明是在电脑pc 端搜索的手机,但是我在手机上看电影的时候却能看到它,是不是也太奇怪了。难道我的电脑、我的手机、我的ipad 等等电子设备都被监控了吗?二、背景《阿里巴巴大数据之路》中有讲到关于数据中台OneData 的方法论,其中分别涉及到OneModel、原创 2022-03-08 14:01:54 · 10403 阅读 · 0 评论 -
用户画像系列—如何从0到1建设用户画像
我们讲到用户画像其实就是用户的标签或者特征,首先要明确就是要完成标签的生产和加工,那么涉及到的内容就包括数据的接入、清洗、和最后标签的加工入库。热数据考虑用更好的硬件设备进行存储(SSD、独立集群等)、冷数据考虑用一般的硬件设备进行存储(HHD、公共集群)标签字典:标签内容数据只存储字典枚举,而不实际存储实际内容(比如:性别标签男女存储为0、1)标签质量:对于标签的数据质量进行监控、波动告警,包含:标签的覆盖率、标签分布的监控告警。(4)标签权限管控、标签字典、标签质量。原创 2022-08-24 19:47:11 · 749 阅读 · 0 评论 -
用户画像系列——当我们聊用户画像,我们在聊什么?
市面上不少公司都在做用户画像的相关工作,无论是电商行业、金融行业、视频行业等等,都有这样的产品。那到底怎么去定义用户画像呢?用户画像,即:用标签的方式去描述一个人或者一台手机、一台电脑,有些公司称之为”用户画像“,有一些公司称之为”用户特征“,其实是一个意思。举个简单的例子:袁小青,性别:女,年龄:22岁,职业:时尚编辑,爱好:音乐、拍照,居住地:北京,消费情况:年薪10w,喜欢的app:抖音从上面的例子,能看出来其实就是把用户进行标签化比如说:电商场景,对于使用当前进行购物的账号(当然也有可能帮别人购买)原创 2022-06-29 16:36:22 · 435 阅读 · 0 评论