2018年12月_码动乾坤

12月 11月 09月

原创 Spark 从 Kafka 读数并发问题

经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题：某些 Spark 分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见，本文讨论的 Spark Direct 方式读取 Kafka 中的数据，这种情况下 Spark RDD 中分区和 Kafka...

2018-12-24 01:05:03 420

原创大数据项目实战之调优思路

session聚合统计之重构实现思路session聚合统计（统计出访问时长和访问步长，各个区间的session数量占总session数量的比例）的传统思路:1、actionRDD，映射成<sessionid,Row>的格式2、按sessionid聚合，计算出每个session的访问时长和访问步长，生成一个新的RDD3、遍历新生成的RDD，将每个session的访问时长和访问...

2018-12-22 21:06:00 497

原创大数据项目实战之十五:15.session聚合统计之自定义Accumulator

Accumulator传统的实现方式,有如下缺点:1.在写后面的累加代码的时候，比如找到了一个4s~6s的区间的session，但是在代码里面不小心累加到7s~9s里面去了；2.当后期项目出现一些逻辑上的变更，比如说，session数量的计算逻辑，要改变，就得更改所有Accumulator对应的代码；或者说，又要增加几个范围，那么又要增加多个Accumulator，并且修改对应的累加代码；...

2018-12-21 01:28:44 266

原创全局topN问题

import org.apache.spark.{SparkConf, SparkContext}object FavTeacher { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("FavTeacher") .setMaster("local...

2018-12-14 00:25:05 301

原创 hive实现累计报表详解

业务场景:有如下访客每次金额统计表 t_access_times 访客月份金额 A 2015-01 5 A 2015-01 15 B 2015-01 ...

2018-12-14 00:13:36 1385 2

原创 Spark性能调优:调节并行度

并行度：其实就是Spark作业中，各个stage的task数量，也就代表了Spark作业的在各个阶段（stage）的并行度。如果不调节并行度，导致并行度过低，会怎么样？假设，现在已经在spark-submit脚本里面，给我们的spark作业分配了足够多的资源，比如50个executor，每个executor有10G内存，每个executor有3个cpu core。基本已经达到了集群或者...

2018-12-09 21:47:09 190

原创 Spark性能调优:如何分配更多资源

性能调优的王道，就是增加和分配更多的资源，性能和速度上的提升，是显而易见的；基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资源配置；在这个基础之上，如果说你的spark作业，能够分配的资源达到了你的能力范围的顶端之后，无法再分配更多的资源了，公司资源有限；那么才是考虑去做其他的调优工作。...

2018-12-09 20:53:15 392

原创 RDD分区概述

1.RDD是一个基本的抽象，操作RDD就像操作一个本地集合一样，降低了编程的复杂度RDD里面并不存储真正要计算的数据,你对RDD进行操作,他会在Driver端转换成task,下发到Executor计算分散在多台集群上的数据RDD的算子分为两类，一类是Transformation（lazy），一类是Action（触发任务执行）RDD不存真正要计算的数据，而是记录了RDD的转换关系（调用了什么...

2018-12-07 00:56:55 2097

原创大数据项目实战之十四:14.按筛选参数对session粒度聚合数据进行过滤

import com.alibaba.fastjson.JSONObject;import com.ibeifeng.sparkproject.conf.ConfigurationManager;import com.ibeifeng.sparkproject.constant.Constants;import com.ibeifeng.sparkproject.dao.ITaskDAO;...

2018-12-06 23:39:20 245

原创 Hadoop中需要哪些配置文件，其作用是什么

1）core-site.xml：(1)fs.defaultFS:hdfs://cluster1(域名)，这里的值指的是默认的HDFS路径。(2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是NameNode、DataNode、secondaryNamenode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。(3)ha.zo...

2018-12-04 22:30:47 5853

原创正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

1）NameNode它是hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有metadate。2）SecondaryNameNode它不是namenode的冗余守护进程，而是提供周期检查点和清理任务。帮助NN合并editslog，减少NN启动时间。3）DataNode它负责管理连接到节点的存储（一个集群中可以有多个节点）。每个存储数据的节点运行一个datanod...

2018-12-04 22:28:57 19322

原创 Spark入门之JavaLambdaWordCount

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import scala.Tuple2;imp...

2018-12-04 15:07:47 248

原创 Spark入门之Java实现WordCount

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.a...

2018-12-04 13:45:38 480

原创 Scala入门案例---Wordcount

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def main(args: Array[String]): Unit = { if (args.size != 2) { println( ...

2018-12-04 01:29:03 465

原创 Yarn和Spark的StandAlone调度模式的对比

Yarn和Spark的StandAlone调度模式的对比:MapReduce中的maptask和reducetask都是在YarnChild中进行计算的,YarnChild是一个进程,使用jps命令可以看到1.yarn中的ResourceManager和Spark中的master作用:都是管理子节点,资源调度,接收任务请求2.yarn中的nodemanager和spark中的worker:管...

2018-12-02 00:25:14 2141

原创大数据项目实战之十三:13.Spark上下文构建以及模拟数据生成

import com.ibeifeng.sparkproject.conf.ConfigurationManager;import com.ibeifeng.sparkproject.constant.Constants;import com.ibeifeng.sparkproject.util.MockData;import org.apache.spark.SparkConf;...

2018-12-01 22:51:19 624

原创大数据项目实战之十二:12.JSON数据格式讲解以及fastjson介绍

什么是JSON？就是一种数据格式；比如说，我们现在规定，有一个txt文本文件，用来存放一个班级的成绩；这个文本文件里的学生成绩的格式，是第一行，就是一行列头（姓名班级年级科目成绩），接下来，每一行就是一个学生的成绩。那么，这个文本文件内的这种信息存放的格式，其实就是一种数据格式。学生班级年级科目成绩张三一班大一高数 90李四二班大一高数 80对应到JSO...

2018-12-01 11:57:18 302

原创大数据项目实战之十一:11.工厂模式讲解以及DAOFactory开发

如果没有工厂模式，可能会出现的问题：ITaskDAO接口和TaskDAOImpl实现类；实现类是可能会更换的；那么，如果你就使用普通的方式来创建DAO，比如ITaskDAO taskDAO = new TaskDAOImpl()，那么后续，如果你的TaskDAO的实现类变更了，那么你就必须在你的程序中，所有出现过TaskDAOImpl的地方，去更换掉这个实现类。这是非常非常麻烦的。如果说，...

2018-12-01 11:40:48 459

原创 Spark任务执行过程简介

--executor-memory 每一个executor使用的内存大小--total-executor-cores 整个application使用的核数1.提交一个spark程序到spark集群,会产生哪些进程? SparkSubmit(也叫做Driver),主要作用是提交任务,也可以调度任务 Executor 用于执行需要计算的任务 2.在提交spa...

2018-12-01 01:48:41 804

需求规格说明书参考模板.doc

需求规格说明书参考模板

2021-12-08

最强HiveSQL开发指南.pdf

Hive性能调优实战

2021-11-30

6万字、110个知识点Flink面试大全.pdf

6万字、110个知识点Flink面试大全

2021-11-30

基于Flink的大数据票务风控系统.pdf

2021-09-26

深圳校区大数据技术之企业真题V1.1.0.doc

百家公司面试实录

2021-09-26

kylin简介核心概念工作机制

Apache kylin的核心概念 Apache kylin的工作机制 Apache kylin的架构及核心组件构建cube的维度和度量

2020-01-08

【蓉荣】Flink在数据湖场景下的使用.pdf

1.批流统一的大数据处理引擎 2.数据湖场景下的应用 3.场景系统架构分析 4.场景业务架构分析 5.数仓架构设计 6.表结构说明

2019-12-13

【04 菜鸟晨蕊】菜鸟实时数据物流解决方案.pdf

阿里巴巴菜鸟网络数据工程师分享业务背景实时数仓架构案例应用:实时消息保序多消息流关联,维度更新汇总,超时汇总指标

2019-12-03

【06 计算平台巴真】Flink-构建下一代大数据处理引擎.pdf

阿里内部技术分享系列之6:flink-构建下一代大数据处理引擎数据趋势业界案例阿⾥思考 Flink@阿⾥

2019-12-03

面试简历项目和业务如何整理

1.技能：强调你能干什么？？？ 2.提前准备哪些??? 3.面试之前这些笔试题选五套做一做 4.项目如何写,面试时业务如何表达

2019-05-04

面试大数据算法解析

1.提取出某日访问百度次数最多的那个IP 2.有一个1G大小的一个文件，里面每一行是一个词 3.给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 4.在2.5亿个整数中找出不重复的整数 5.腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中? ......

2019-05-04