总结杂谈

最新推荐文章于 2019-01-22 00:10:14 发布

阿龙学堂

最新推荐文章于 2019-01-22 00:10:14 发布

阅读量354

点赞数

分类专栏： hadoop spark hive

本文链接：https://blog.csdn.net/superzyl/article/details/79862931

版权

spark 同时被 3 个专栏收录

23 篇文章 1 订阅

订阅专栏

hive

12 篇文章 1 订阅

订阅专栏

hadoop

5 篇文章 0 订阅

订阅专栏

架构设计  图
组件选择（调研+压测试）
高可靠
压缩格式
文件格式
每秒，分钟数据量未入集群离线实时
那块高可靠没有做好？flume memory |spark yarn
开发内容：
hive
spark
存储
监控

java
1.GC jvm垃圾选择器参数
串行收集器、并行收集器、并发收集器。
GC有两种类型：Scavenge GC和Full GC。
以使用-XX:+UseSerialGC打开。
-XX:ParallelGCThreads=<N>
-XX:+UseConcMarkSweepGC
2.java的值传递和对象传递的区别
如果参数是基本类型，传递的是基本类型的字面量值的拷贝。
如果参数是引用类型，传递的是该参量所引用的对象在堆中地址值的拷贝。
3.java的多继承和多态
多态
实质：指当系统A访问系统B的服务时，系统B可以通过多种实现方式来提供服务，而这一切对系统A是透明的
4.java的封装，继承，多态
将不需要对外提供的内容都隐藏起来。把属性都隐藏，提供公共方法对其访问。private int age ；public setage（）
5.java的sleep和wait的区别
在调用sleep()方法的过程中，线程不会释放对象锁。
而当调用wait()方法的时候，线程会放弃对象锁，进入等待此对象的等待锁定池，只有针对此对象调用notify()方法后本线程才进入对象锁定池准备
6.HaseMap和HashTable的区别
    1.hashMap去掉了HashTable 的contains方法，但是加上了containsValue（）和containsKey（）方法。
    2.hashTable同步的，而HashMap是非同步的，效率上逼hashTable要高。
    3.hashMap允许空键值，而hashTable不允许。
7.java多线程有哪几种实现方式
继承Thread类、实现Runnable接口、实现Callable接口通过FutureTask包装器来创建Thread线程、使用ExecutorService、Callable、Future实现有返回结果的多线程。
8.java接口和抽象类的区别
1.abstract class 在 Java 语言中表示的是一种继承关系，一个类只能使用一次继承关系。但是，一个类却可以实现多个interface。
　　2.在abstract class 中可以有自己的数据成员，也可以有非abstarct的成员方法，而在interface中，只能够有静态的不能被修改的数据成员（也就是必须是static final的，不过在 interface中一般不定义数据成员），所有的成员方法都是abstract的。
　　3.abstract class和interface所反映出的设计理念不同。其实abstract class表示的是"is-a"关系，interface表示的是"like-a"关系。
　　4.实现抽象类和接口的类必须实现其中的所有方法。抽象类中可以有非抽象方法。接口中则不能有实现方法。
　　5.接口中定义的变量默认是public static final 型，且必须给其初值，所以实现类中不能重新定义，也不能改变其值。抽象类中的变量默认是 friendly 型，其值可以在子类中重新定义，也可以重新赋值。
　　7.接口中的方法默认都是 public,abstract类型的。
大数据：
1.HDFS读写流程
DistributedFileSystem通过RPC来调用namenode
FSDataInputStream
FSDataOutputStream
2.yarn怎么调整资源
现状：该队里minshare设置的过小，同时起的任务太多
导致的问题：该队列中平均每个任务分的资源比较少，任务跑的特别慢，同时，任务之间会相互抢占Container
1）调整minshare，maxshare
2）调整maxrunningapp
3.作业在yarn的流程
1、用户向YARN中提交应用程序，其中包括ApplicationMaster（AM）程序，启动AM的命令，用户程序等。
2、ResourceManger(RM)为该程序分配第一个Container，并与对应的NodeManger通讯，要求它在这个Container
中启动应用程序AM。
3、AM首先向RM注册，这样用户可以直接通过RM查看应用程序的运行状态，然后将为各个任务申请资源，并监控
它的运行状态，直到运行结束，重复4--7的步骤。
4、AM采用轮询的方式通过RPC协议向RM申请和领取资源。
5、一旦AM申请到资源后，便与对应的NM通讯，要求它启动任务。
6、NM为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过
运行该脚本启动任务。
7、各个任务通过某个RPC协议向AM汇报自己的状态和进度，以让AM随时掌握各个任务的运行状态，从而可以在任务
失败的时候重新启动任务。
8、应用程序运行完成后，AM向RM注销并关闭自己。

1.hive的分组排序
SELECT user_id,pro_id,value FROM (
SELECT user_id,pro_id,value,
row_number() over (PARTITION BY user_id OREDER BY value DESC) as flag
WHERE flag<=2
);
除Row_number外还有rank,dense_rank
以下是语法：
rank() over([partition by col1] order by col2)
dense_rank() over([partition by col1] order by col2)
row_number() over([partition by col1] order by col2)
2.hive自定义函数
UDF 对单条记录操作  UDAF 对多条使用 UDTF select lataral view
3.hive的left join ，left outer join，left semi join的区别
1.hive不支持’left join’的写法；
2.hive的left outer join：如果右边有多行和左边表对应，就每一行都映射输出；如果右边没有行与左边行对应，就输出左边行，右边表字段为NULL；
3.hive的left semi join：相当于SQL的in语句，比如上面测试3的语句相当于“select * from table1 where table1.student_no in (table2.student_no)”，注意，结果中是没有B表的字段的。
left semi join 过滤
4.hive优化
1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）
2. hive.exec.reducers.max（默认为999）
长期观察hadoop处理数据的过程，有几个显著的特征:
不怕数据多，就怕数据倾斜。
对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。
对sum，count来说，不存在数据倾斜问题。
对count(distinct ),效率较低，数据量一多，准出问题，如果是多count(distinct )效率更低。
优化可以从几个方面着手：
好的模型设计事半功倍。
解决数据倾斜问题。
减少job数。
设置合理的map reduce的task数，能有效提升性能。(比如，10w+级别的计算，用160个reduce，那是相当的浪费，1个足够)。
自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skewindata=true;这是通用的算法优化，但算法优化总是漠视业务，习惯性提供通用的解决方法。 Etl开发人员更了解业务，更了解数据，所以通过业务逻辑解决倾斜的方法往往更精确，更有效。
对count(distinct)采取漠视的方法，尤其数据大的时候很容易产生倾斜问题，不抱侥幸心理。自己动手，丰衣足食。
对小文件进行合并，是行至有效的提高调度效率的方法，假如我们的作业设置合理的文件数，对云梯的整体调度效率也会产生积极的影响。
优化时把握整体，单个作业最优不如整体最优。
hbase的问题
1.hbase怎么预分区？
Hbase默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断  增加，此region已经不能承受不断增长的数据量，会进行split，分成2个region。在此过程中，会产生两个问题：1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵的集群I/O资源。基于此我们可以控制在建表的时候，创建多个空region，并确定每个region的起始和终止rowky，这样只要我们的rowkey设计能均匀的命中各个region，就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长，该split的还是要进行split。像这样预先创建hbase表分区的方式，称之为预分区，下面给出一种预分区的实现方式。
2.hbase怎么给web前台提供接口来访问？
Hbase的访问方式包括：
1、Native Java API：最常规和高效的访问方式；
2、HBase Shell：HBase的命令行工具，最简单的接口，适合HBase管理使用；
3、Thrift Gateway：利用Thrift序列化技术，支持C++，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据；
4、REST Gateway：支持REST 风格的Http API访问HBase, 解除了语言限制；
5、MapReduce：直接使用MapReduce作业处理Hbase数据；
6、使用Pig/hive处理Hbase数据。
3.htable API有没有线程安全问题，在程序中是单例还是多例？
HTable对象对于客户端读写数据来说不是线程安全的，因此多线程时，要为每个线程单独创建复用一个HTable对象，不同对象间不要共享HTable对象使用，特别是在客户端auto flash被置为false时，由于存在本地write buffer，可能导致数据不一致。
HTable对象共享Configuration对象，这样的好处在于：
共享ZooKeeper的连接：每个客户端需要与ZooKeeper建立连接，查询用户的table regions位置，这些信息可以在连接建立后缓存起来共享使用；
共享公共的资源：客户端需要通过ZooKeeper查找-ROOT-和.META.表，这个需要网络传输开销，客户端缓存这些公共资源后能够减少后续的网络传输开销，加快查找过程速度。
Configuration conf = HBaseConfiguration.create();
HTable table1 = new HTable(conf, "table1");
HTable table2 = new HTable(conf, "table2");
HTablePool可以解决HTable存在的线程不安全问题，同时通过维护固定数量的HTable对象，能够在程序运行期间复用这些HTable资源对象。
Configuration conf = HBaseConfiguration.create();
HTablePool pool = new HTablePool(conf, 10);
至于多线程使用HTablePool的真实性能情况，需要通过实际的测试工作得到。
4.我们的hbase大概在公司业务中（主要是网上商城）大概都几个表，几个表簇，大概都存什么样的数据？
5.hbase的并发问题？
在客户端开启多个HTable写线程，每个写线程负责一个HTable对象的flush操作，这样结合定时flush和写buffer（writeBufferSize），可以既保证在数据量小的时候，数据可以在较短时间内被flush（如1秒内），同时又保证在数据量大的时候，写buffer一满就及时进行flush。

1.有没有阅读过spark源码
2.spark rdd五大特性
1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。
2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）
3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过应用程序中的集合来创建。
4、RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。（弹性）
3.spark读取kafak的两种方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式，可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据了。
4.spark调优
一、Spark性能优化：开发调优篇
二、Spark性能优化：资源调优篇
三、Spark性能优化：数据倾斜调优
四、Spark性能优化：shuffle调优

阿龙学堂

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
总结杂谈

架构设计图组件选择（调研+压测试）高可靠压缩格式文件格式每秒，分钟数据量未入集群离线实时那块高可靠没有做好？flume memory |spark yarn开发内容：hivespark存储监控java1.GC jvm垃圾选择器参数串行收集器、并行收集器、并发收集器。GC有两种类型：Scavenge GC和Full GC。以使用-XX:+UseSerialGC打开。-XX:Paralle...
复制链接

扫一扫

专栏目录