题目:判断是否是平衡二叉树
思路:1、计算树的深度,判断深度差不超过一则是平衡二叉树
代码:
public class Soluton {
class TreeNode{
int val;
TreeNode left = null;
TreeNode right = null;
public TreeNode(int val) {
// TODO Auto-generated constructor stub
this.val = val;
}
private boolean IsBalanced = true;
public boolean IsBalanced(TreeNode root) {
getDepth(root);
return IsBalanced;
}
public int getDepth(TreeNode root) {
if(root == null){
return 0;
}
int left = getDepth(root.left);
int right = getDepth(root.right);
if(Math.abs(left-right)>1)
IsBalanced = false;
return right > left ? right + 1 : left + 1;
}
}
2、遍历每个结点,借助一个获取树深度的递归函数,根据该结点的左右子树高度差判断是否平衡,然后递归地对左右子树进行判断。
代码:
public class Solution {
public boolean IsBalanced_Solution(TreeNode root) {
if(root == null) {
return true;
}
return Math.abs(maxDepth(root.left) - maxDepth(root.right)) <= 1 &&
IsBalanced_Solution(root.left) && IsBalanced_Solution(root.right);
}
private int maxDepth(TreeNode root) {
if(root == null) {
return 0;
}
return 1 + Math.max(maxDepth(root.left), maxDepth(root.right));
}
}
面试题:
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
直接使用hadoop带来的问题:人员学习成本太高,项目周期要求太短,mapreduce实现复炸逻辑开发难度太大,使用hive操作接口类SQL语法,提供快速开发的能力,不免了去写maoreduce,减少开发人员的学习成本
hive特点:可扩展性,延展性,容错性
1、Hive内部表和外部表的区别
内部表:加载数据到hive所在的hdfs目录,删除时,元数据和数据文件都删除
外部表:不加载数据到hive所在的hive所在的目录,删除时,只删除表结构
2、分桶的作用
最大的作用就是提高join的效率,(1)获得更高的查询处理效果,(2)使取样(sampling)效率更高
3、hive内部表和外部表的应用,UDF
UDF:写对应的java代码自定义函数的逻辑,将代码打包成jar上传到hive,在hive创建临时函数与对应的class类相关联,在hive中调用临时函数
4、hbase的rowkey的字典序(byteorder)排序存储,设计key时。要充分呢利用排序存储这个特性,将经常一起读取的行存储在一起,(位置相关性),一个列族在数据底层是一个文件,所以经常一起查询的列放到一个列族中,列族尽量少,减少文件的寻址时间
5、redis,传统数据库,hbase,hive每个之间的区别
redis:分布式缓存,强调缓存,内存中数据
传统数据库:注重关系
hbase:列式数据库,无法做关系数据库的主外键,用于海量存储,底层基于hdfs
hive:数据仓库工具,底层是mapreduce,不是数据库,不能用来做用户的交互存储
6、hdfs和hbase使用场景
首先:hbase是基于hdfs来存储的
hdfs:一次写入,多次读取,保证数据的一次性,主要是可以部署在许多廉价机器中,通过怕多副本提高可靠性,提供了容错 和复制机制
hbase:瞬间写入量很大,数据库不好支撑或需要高成本支撑的场景,数据需要长久保存,且量会持久增长到比较大的场景,hbase不适用于join,多级索引,表关系复杂的数据模型,大数据量(100sTB级数据)且有快速随机访问的需求,容量的可扩展性,大数据的驱使,动态扩展系统容量是必须的,业务场景简单,不需要关系数据库中很多特性,合理设计rowkey,方便hbase的查询
后续:storm,spark等