用户画像－撸一部分代码啊

最新推荐文章于 2024-05-10 22:13:46 发布

BUPT-WT

最新推荐文章于 2024-05-10 22:13:46 发布

阅读量2.2k

点赞数

分类专栏：用户画像

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/90710923

版权

用户画像专栏收录该内容

4 篇文章 2 订阅

订阅专栏

1、聚类

算相似人群的时候会根据人的特征进行聚类或者相似度计算，scala kmeans代码如下所示:

2 、HashLSH计算

三、信用评分模型构建

四、一些创建hive 表以及写入数据的sql（主要掌握hive的一些窗口函数，如case..when , row number, collect_set.....）

简单的写几个如下所示：

以及每个维度画像标签有一个表或者多个表，最终需要把不同维度的表合成一个宽表，如下所示：

五、hive数据写入到ES

ES与其它库的区别:

几十亿用户下, 根据不同维度查询达到秒级 ——> hbase-实时查询但是聚合没法做的 es

在线计算－－> ES 查询速度快，稳定性每天数据更新

hive、spark sql、impala、presto －－延迟比较大

ES不适合做关联－主要是方便查询,检索 es 很消耗内存

关联适合离线 hive 更多占用硬盘数据相比内存便宜很多

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

194万+: 总排名

63万+: 访问

: 等级

1万+: 积分

367: 粉丝

261: 获赞

100: 评论

1145: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。