自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 模型宽表搭建过程中遇到的问题——代码

进入画像部门之后,我前后为模型组同事拼接了20多张模型宽表,每张宽表的标签数量不等。小的在100个字段左右,取数的表二十个左右;大的超过一千个字段,取数的表超过50个。业务方一般会提供给我们一个详细开的发文档,说明各个标签的英文名,中文备注,数据类型,和取数表,有时也有可能部分标签提供逻辑需要自己开发。当我们收到开发文档后,千万不要急着去敲代码,不然你会掉进深渊,我们要做一下的工作。1...

2019-07-07 18:54:52 965

原创 sparkstreaming的reduceByKeyAndWindow窗口函数的实现搜索热词排名

代码实现如下:import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}//搜索热词前三,实现实时计算ob...

2019-08-27 22:26:40 271

原创 客户画像模型宽表搭建

2019-07-07 19:08:49 1288

原创 画像标签累计类型如何计算

我们在开发画像标签的过程中会遇到如下的维度:客户首次进入app**模块的日期 客户最后一次进入app**模块的日期 客户在app**模块的累计的活跃时长 客户在app**模块的累计活跃次数 客户在app**模块的累计活跃天数核心思想是用用今天的数据和历史数据滚动式迭代的方式计算,示例代码如下:任务A存储着用户当天的数据;create table A(phone_no st...

2019-07-06 08:42:44 194

原创 APP中最近三个月,半年,一年内活跃的用户统计方法

正如我的另外一篇文章种所描述的方法:Hive中如何统计用户三个月或者以上的行为数据此处,是我在做客户画像标签开发的过程中,遇到的一个非常严峻的问题。其他标签统计某某行为最近三个月的数据可能通过对数据进行筛选计算,可以降低统计的数据量,无非是多几个脚本而已。但是这里必须从基表中统计客户行为,数据量相当可观。...

2019-07-06 00:34:27 4749

原创 Hive中如何统计用户三个月或者以上的行为数据

客户画像中,标签开发经常会有类似下面维度的标签,那该如何处理呢?客户最近三个月点击app**模块的活跃时长 客户最近三个月点击app**模块的活跃次数 客户最近三个月点击app**模块的活跃天数常规方法,以及存在的问题最直接的办法就是在计算出当天数据之后,然后一次性加在90天的数据,goup by做相应的聚合操作,在用户量不是很大的情况下,这样做事没有问题的,但是假设一天的活跃用...

2019-07-06 00:16:19 5266

转载 MySQL和B树的那些事

MySQL和B树的那些事一、零铺垫    在介绍B树之前,先来看另一棵神奇的树——二叉排序树(Binary Sort Tree),首先它是一棵树,“二叉”这个描述已经很明显了,就是树上的一根树枝开两个叉,于是递归下来就是二叉树了(下图所示),而这棵树上的节点是已经排好序的,具体的排序规则如下:若左子树不空,则左子树上所有节点的值均小于它的根节点的值 若右子树不空,则右子树上所有节点的...

2018-11-07 15:01:15 82

转载 Hadoop之 - 剖析 MapReduce 作业的运行机制(MapReduce 2)

Hadoop之 - 剖析 MapReduce 作业的运行机制(MapReduce 2)Professor哥关注0人评论17571人阅读2016-11-20 22:29:01在0.20版本及更早期的系列中,mapred.job.tracker 决定了执行MapReduce程序的方式。如果这个配置属性被设置为local(默认值),则使用本地的作业运行器。运行器在耽搁JVM上运行整个作业。它...

2018-10-31 18:22:23 410

转载 redis设置键的生存时间或过期时间

redis设置键的生存时间或过期时间设置键的生存时间或过期时间通过EXPIRE 命令或者PEXPIRE 命令,客户端可以以秒或者毫秒精度为数据库中的某个键设置生存时间( Time To Live , TTL) ,在经过指定的秒数或者毫秒数之后,服务器就会自动删除生存时间为0的键:redis> SET key valueOKredis> EXP 工RE key 5...

2018-10-24 23:13:08 258

转载 MySQL的四种事务隔离级别

MySQL的四种事务隔离级别本文实验的测试环境:Windows 10+cmd+MySQL5.6.36+InnoDB一、事务的基本要素(ACID)  1、原子性(Atomicity):事务开始后所有操作,要么全部做完,要么全部不做,不可能停滞在中间环节。事务执行过程中出错,会回滚到事务开始前的状态,所有的操作就像没有发生一样。也就是说事务是一个不可分割的整体,就像化学中学过的原子,是物质...

2018-10-22 19:39:35 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除