大数据
文章平均质量分 81
陌北有棵树
AI世界探路者,量化小白成长中,公众号同名「陌北有棵树」
展开
-
【数据分析】UTM参数
由于目前的工作,有一部分是为运营提供一些流量分析的支持,所以一些相应的基础知识就不得不学起来了。目前其中一种需求,就是统计广告的投放效果,常规做法就是添加追踪,在追踪链中添加utm参数,这样对于数据平台的聚合统计就比较方便了UTM :“Urchin Tracking Module”的简写,中文的大概意思就是跟踪模块功能:追踪渠道来源,便于根据不同渠道、内容等细分数据,目的:精细化运营分析...原创 2019-08-08 19:05:56 · 22235 阅读 · 0 评论 -
【大数据】Java同学入门Spark编程 —— 深入分析Spark任务调度的原理
上篇是Spark入门的第一篇,写了一些关于Spark编程中RDD的一些基本操作,主要是为了能快速入手Spark编程,接下来会对Spark的内部原理进行分析。对于Spark来说,任务的调度和执行可以说是其运行的核心流程,所以本文从源码的角度对这个过程进行详细的分析。【一】概述【Spark任务执行流程】用户创建SparkContext,SparkContext连接到Cluster Manag...原创 2019-08-23 17:13:48 · 231 阅读 · 0 评论 -
【Java后端同学入门Spark编程】RDD基本操作
最近由于工作任务,需要掌握大数据技术栈的相关知识,于是开始了入门大数据的漫漫之路。相比传统Java后端的技术栈来说,大数据关注的技术点可以说是另一套内容,但同时本质上又殊途同归,Hadoop是用Java实现的,Spark虽然是用Scala实现,但Scala本身也是跑在JVM上,所以对于Java同学还是有一定的友好度的。相对于技术部分,个人觉得更多的不同点在于业务的设计部分,这一部分才是真的处于...原创 2019-08-05 12:58:46 · 552 阅读 · 0 评论 -
【大数据】Java同学入门Hive编程 —— 简介和入门操作
【一】简介承接上文《Java后端同学入门Spark编程》,对于日常的数据需求来说,熟悉Hive是一项必备的技能,因为很多日常的数据导出是不需要Spark任务的,跑一个HiveQL就可以完成,但秉承着知其然还要知其所以然的目的,我们首先来了解一下Hive相关的知识,然后熟悉一些日常HiveQL中可能用到的函数。Hive用来作为原始数据和转换后数据的存储,简化ETL。首先给出官方对于Hive的定...原创 2019-08-23 15:37:27 · 546 阅读 · 0 评论