--数仓工程师进阶
文章平均质量分 81
数仓工程师进阶
寒 暄
自渡
展开
-
Hive 分析窗口函数
窗口函数窗口函数一般就是说over()函数,其窗口是由一个OVER字句定义的多行记录。窗口函数有两种形式:over(distribute by 分区字段 sort by 排序字段)distribute by 是按照多个reduce去处理数据的,对应的排序是局部排序sort byover(partition by 分区字段 order by 排序字段)partition by 是按照一个reduce去处理数据的,对应的排序是全局排序order by开窗大小设置:窗口大小的设置使用rows原创 2022-03-23 22:00:00 · 3175 阅读 · 0 评论 -
Flink原理与调优
Flink提交流程(Yarn-Per-Job)1. client运行脚本提交命令。2. CliFrontend实例化CliFrontendParser进行参数解析。3. CliFrontend实例化YarnJobClusterExecutor并创建客户端。4. 在客户端中实例化YarnClusterDescriptor封装YarnClient信息,包含提交参数和命令。5. 将信息提交给RM。6. RM向NM的yarnRMClient发送消息,启动APPmaster。7. NM分配资源生成AP原创 2022-03-18 17:53:59 · 3812 阅读 · 0 评论 -
Spark原理与调优
Spark core作业提交流程client运行脚本提交命令。SparkSubmit实例化SparkSubmitArguments进行参数解析。SparkSubmit实例化YarnClusterApplication并创建客户端。在客户端中封装YarnClient信息,包含提交参数和命令。将信息提交给RM。RM向NM的yarnRMClient发送消息,启动APPmaster。NM分配资源生成APPmaster,并启动Driver线程。执行代码,初始化Spa原创 2022-03-01 20:12:37 · 1985 阅读 · 0 评论 -
Zookeeper选举机制和同步策略
Zookeeper选举机制-第一次启动未启动此时所有节点无状态,无角色,但是zkService知道参与选举的节点数量Server 1 启动Server 1启动,选举开始,投自己一票,此时Server 1票数不过半,Server 1保持LOOKING状态。Server 2 启动Server 2启动,Server 2投自己一票,并与Server 1 互换投票信息,Server 2的myID大于Server 1 的myID,Server 1改投票给Server 2,此时Server 2票原创 2022-02-24 17:15:07 · 1066 阅读 · 0 评论 -
Hadoop原理与调优
Hadoop原理1. HDFS写流程1.client通过 Distributed FileSystem 模块向NameNode请求上传文件,NameNode会检查目标文件是否存在,路径是否正确,用户是否有权限。2.NameNode向client返回是否可以上传,同时返回三个离client近的DataNode节点,记为DN1/DN2/DN3。3.client通过DFSOutPutStream进行数据切割。4.使用chunk校验信息(512bytes校验信息+4bytes校验头)加Data数据信息组原创 2022-02-23 16:04:58 · 868 阅读 · 0 评论 -
用户留存模型设计
渠道同期群分析方法企业通过渠道获客是有成本的,我们需要知道哪个渠道的新用户留存高,这样就可以降低获客成本。新老用户同期群分析(Cohort Analysis)方法以周为粒度进行举例,观察相同时间间隔后的表现,例如图中2019/1/1的新用户在第一周的留存率是49%,但2019/2/5的新用户留存率仅为40%,这说明新用户的留存率在下降,需要进行重点关注。这种方法有一个关注的重点,就是如何区分新用户,这就要通过用户行为进行甄别,新用户不熟悉app,第一次使用程度会比较浅,而老用户就相对轻车熟路。原创 2022-02-17 10:01:42 · 1023 阅读 · 0 评论 -
标签、画像设计与模型落地
标签标签的本质就是对实体某个维度特征的描述。用户标签就是对用户某个维度特征的描述,例如:对用户生命周期的标签(生命周期主题):“参与这个活动的老用户和新用户各有多少”;对用户价值分层的标签(价值分层主题):“本次活动有10万预算,应该如何分配”;对用户商品偏好的标签(行为偏好主题):“给他们推送哪些商品可以增加他们的活跃”;对用户营销时机的标签(营销偏好主题):“应该什么时候给他们推送”。标签的分类在《用户画像方法论和工程化解决方案》一书中将标签分为三类:①统计类标签,②规则类标签,③机器学原创 2022-02-11 17:06:04 · 1625 阅读 · 0 评论