![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发知识
UU砖头
这个作者很懒,什么都没留下…
展开
-
Java(04)_数组_数组内存结构_方法的概述
数组介绍及动态初始化 数组内存结构及静态初始化 数组常见问题及练习1.1.2 数组的定义格式1.1.3 数组概念数组是存储同一种数据类型多个元素的容器。数组既可以存储基本数据类型,也可以存储引用数据类型。1.1.4 数组的定义格式格式1:数据类型[] 数组名;格式2:数据类型 数组名[];注意:这两种定义做完了,数组中是没有元素值的。如何对数组的元素进行初始化呢? ...原创 2020-01-02 17:52:05 · 188 阅读 · 0 评论 -
项目要怎么说
项目分点:集群规模:(12台物理机:128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多一台)框架结构,画出来(日志部分:日志服务器,落盘日志,flume,kafka,hdfs,hive,mysql业务数据部分:mysql-sqoop-hdfs-hive)3.框架:(一)Flume(留了问题:flume,take出小文件怎么处理,可以根据时间10min一次,或者12...原创 2019-12-23 11:33:34 · 683 阅读 · 0 评论 -
Flink笔记
reducescal第一天-Flink—流式计算框架课程安排:Flink的介绍(特点,整合),FLink的环境安装(standAlone,yarn),Flink dataSet(批处理)flink的介绍特点高吞吐,低延迟窗口行数:事件时间(重点)Exactly-once一致性语义(理解)容错机制(checkpoint,重点)自己实现内存管理水位线(waterMark:网络乱序...原创 2019-12-23 11:32:08 · 710 阅读 · 0 评论 -
数仓项目总结
项目分点:集群规模:(12台物理机:128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多一台)框架结构,画出来(日志部分:日志服务器,落盘日志,flume,kafka,hdfs,hive,mysql业务数据部分:mysql-sqoop-hdfs-hive)3.框架:(一)Flume(留了问题:flume,take出小文件怎么处理,可以根据时间10min一次,或者12...原创 2019-12-19 16:10:16 · 1561 阅读 · 0 评论 -
面试--笔试部分汇总
飞鹤面试:1.做链接和右连接的区别?左连接:返回左表中的所有字段以及右表中关联上的字段.右连接:返回右表中的所有字段以及左表中关联上的字段.内连接:inner join = join 只返回两个表中连接字段相等的行.全连接:full join :返回左右表中所有的记录和左右表中连接字段相等的记录。左表3条记录,右表2条,左连接结果为3条记录.2.表数据中有个员工表emp,建表语句如...原创 2019-12-17 23:48:50 · 514 阅读 · 0 评论 -
数仓的知识学习
1.学习数仓的架构原创 2019-12-15 16:56:00 · 274 阅读 · 0 评论 -
用户画像模型
算法K-Means确定K值的方法1.肘部法则–通过计算SSE值,以及和运营商讨后得出的K的取值.肘部法则的特点计算简单SSE计算K值代码实现 //选取K的值 println("开始选取k值") val ks: List[Int] = List(3,4,5,6,7,8,9,10,11) //准备一个集合存放k对应的SSE的值 //val表示变量不能被重新赋...原创 2019-12-14 16:34:41 · 1095 阅读 · 0 评论 -
Flink CEP
Flink CEP 简介什么是复杂时间的处理的CEP复杂事件处理(CEP)是一种基于流处理的技术将系统数据看做不同的类型的数据通过分析事件之间的关系,建立不同的事件关系序列库利用过滤,关联,聚合等技术,由简单事件产生高级事件通过模式规则的方式对重要是的信息进行跟踪和分析,从数据中发掘有价值的信息.Flink CEP是一个基于Flink的复杂事件处理库,和机器学习库是一样的,是Flin...原创 2019-12-12 21:56:34 · 259 阅读 · 0 评论 -
Hbase的优化解决方案
Hbase高并发读写优化1.HBase的Periodic Flusher一般HBase在默认情况下回自动触发Flush操作,初衷是为了防止有些memstore长时间不flush,在没有进行WAL的情况下,出现数据的丢失.由于我们的Hbase每个region server 有将近100个resign,几乎每分钟都有region因为达到一小时的时间间隔触发flush,而多数情况下每次flesh的文...原创 2019-12-07 01:07:40 · 187 阅读 · 0 评论 -
Hbase通过buckload导数据
待完善.原创 2019-12-05 21:55:10 · 382 阅读 · 0 评论 -
sql语法知识
准备数据create table user (id int prepare key AUTO_INCREMENT,name varchar(20),score int)INSERT INTO user_test (uname,score) VALUES ('张三',55),('李四',66),('王五',77),('赵六',88),('田七',99);需求1:求出统计分数段的结果,...原创 2019-12-05 17:15:40 · 394 阅读 · 0 评论 -
SparkStreaming
你好原创 2019-12-04 11:44:13 · 180 阅读 · 0 评论