summer2381-CSDN博客

原创 Hbase面试题

HBase面试问题一、HBase的特点是什么1.HBase一个分布式的基于列式存储的数据库,基于hadoop的hdfs存储，zookeeper进行管理。2.HBase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。3.HBase为null的记录不会被存储.4.基于的表包含rowkey，时间戳，和列族。新写入数据时，时间戳更新，同时...

2019-09-19 23:45:31 335

一、简答题1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中，获得元数据信息，恢复集群运行状态，才能对外...

2019-09-19 23:22:19 1672

原创 Hadoop优化

1 MapReduce优化MapReduce 程序效率的瓶颈在于两点：计算机性能CPU、内存、磁盘健康、网络I/O操作优化（1）数据倾斜（2）Map和Reduce数设置不合理（3）Map运行时间太长，导致Reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）Spi次数过多（7）Merge次数过多等。MapReduce优化方法主要从六个方面考虑：数据输入...

2019-09-19 12:44:19 316

原创 Spark产生数据倾斜的原因和解决办法

Spark数据倾斜产生原因首先RDD的逻辑其实时表示一个对象集合。在物理执行期间，RDD会被分为一系列的分区，每个分区都是整个数据集的子集。当spark调度并运行任务的时候，Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多，但是有少部分的任务处理的数据量很大，因而Spark作业会看起来运行的十分的慢，从而产生数据倾斜（进行shuffle的时候）。...

2019-09-14 22:11:01 535

原创 Spring

01. Spring 的 IOC 和 AOP 有了解吗？答： IOC：控制反转，（解耦合）将对象间的依赖关系交给 Spring 容器，使用配置文件来创建所依赖的对象，由主动创建对象改为了被动方式； AOP：面向切面编程，将功能代码从业务逻辑代码中分离出来。 02. AOP 的实现方式有哪几种？如何选择？（必考）答：JDK 动态代理实现和 cglib 实现。选择：...

2019-09-14 13:42:31 226

原创 Mysql

1. MyISAM 和 InnoDB 的区别有哪些？答： MyISAM 不支持事务，InnoDB 是事务类型的存储引擎； MyISAM 只支持表级锁，BDB 支持页级锁和表级锁，默认为页级锁；而 InnoDB 支持行级锁和表级锁，默认为行级锁； MyISAM 引擎不支持外键，InnoDB 支持外键； MyISAM 引擎的表在大量高并发的读写下会经常出现表损坏...

2019-09-14 13:39:08 227

原创 JVM

JVM 内存管理【JVM 垃圾回收机制】01. JVM 内存划分：方法区（线程共享）：常量、静态变量、JIT(即时编译器) 编译后的代码也都在方法区；堆内存（线程共享）：垃圾回收的主要场所；程序计数器：当前线程执行的字节码的位置指示器；虚拟机栈（栈内存）：保存局部变量、基本数据类型变量以及堆内存中某个对象的引用变量；本地方法栈...

2019-09-14 13:33:33 247

原创 Redis面试题

1. 什么是 Redis？Redis 本质上是一个 Key-Value 类型的内存数据库，很像 memcached，整个数据库统统加载在内存当中进行操作，定期通过异步操作把数据库数据 flush 到硬盘上进行保存。因为是纯内存操作，Redis 的性能非常出色，每秒可以处理超过 10 万次读写操作，是已知性能最快的 Key-Value DB。 Redis 的出色之处不仅仅是性能，Redis 最...

2019-09-14 12:53:38 451

原创 Hhase查询速度快的原因

因为Hbase属于NoSQL，非关系型数据库，所以会经常拿来和关系型数据库做对比。面试的时候也会问到为何Hbase的速度快或者为什么选择Hbase作为数据库存储。下面的文章是转发的，对于上述问题的回答有一定的参考意义。仅供参考。HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的，即由LSM-Tree(Log-Structured Merge-Tree) + HTable(re...

2019-09-13 21:44:39 445

原创 mapreduce 和hive 的区别

mapreduce 和hive 的区别首先：1.hive本身只是在hadoop map reduce 或者spark 计算引擎上的封装，应用场景自然更局限，不可能满足所有需求。有些场景是不能用hive来实现，就需要map reduce或者spark rdd编程来实现。2.结构复杂的日志文件，首先要经过ETL处理（使用mapreduce），得到的数据再有hive处理比较合适。直接让hive...

2019-09-13 21:37:24 1348

原创 MapReduce原理

简介MapReduce任务过程分为两个处理阶段：map阶段和reduce阶段。每阶段都以键-值对作为输入和输出，其类型由程序员来选择。程序员还需要写两个函数：map函数和reduce函数。数据流Hadoop将作业分成若干个任务（task）来执行，其中包括两类任务：map任务和reduce任务。map阶段数据划分Hadoop将MapReduce的输入数据划分成等长的...

2019-09-13 21:27:35 588

原创 Hbase中rowkey的设计原则

2019-09-13 13:19:42 466

原创 Hbase，Hive，数据库的区别

Hbase和传统数据库的区别1.数据类型：Hbase只有简单的数据类型，只保留字符串；传统数据库有丰富的数据类型。2.数据操作：Hbase只有简单的插入、查询、删除、清空等操作，表和表之间是分离的，没有复杂的表和表之间的关系；传统数据库通常有各式各样的函数和连接操作。3.存储模式：Hbase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的，这样的好处是数据即是索引，访问查询...

2019-09-13 13:12:05 994

原创 hive与传统数据库的比较

2019-09-13 12:53:39 537

原创 Hbase的特点

Hbase的特点：1.面向列：Hbase是面向列的存储和权限控制，并支持独立索引。列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段时，能大大减少读取的数据量。2.多版本：Hbase每一个列的存储有多个Version。3.稀疏性：为空的列不占用存储空间，表可以设计得非常稀疏。4.扩展性：底层依赖HDFS。5.高可靠性：WAL机制保证了数据写入时不会因集群异常而导致写入...

2019-09-13 12:42:35 3587

原创 hive中的几种排序的区别

hive的排序hive的排序有四种： order by ，sort by，distribute by，cluster byorder byorder by 是最常用的一种排序，全局排序，所有的数据会在一个reducer上面进行排序，所以一般使用这个函数进行排序的时候速度较慢。需要指出来的是，在strict模式下，order by 后面是必须加上limit 进行限制的。sort by...

2019-09-13 12:35:51 329

原创 kafka

Kafka基本概念Broker：消息中间件处理结点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。Topic：一类消息，例如page view日志、click日志等都可以以topic的形式存在，Kafka集群能够同时负责多个topic的分发。Partition：topic物理上的分组，一个topic可以分为多个partition，每个partition是...

2019-09-11 17:47:07 195

原创 kafka消息机制

1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。kafka是一个生产-消费模型。Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode) % numPart...

2019-09-11 14:58:56 347

原创大数据面试题_01

一、Hive 基本面试1、什么是 metastore metadata 即元数据。包含 database、tabel、column names、partitions 信息、bucketing 信息等的元数据信息。元数据默认是存储在 Derby 中，建议存储在关系型数据库中。2、metastore 安装方式有什么区别内嵌模式内嵌模式使用的是内嵌的 Derby 数据库来存储元数据...

2019-09-10 16:07:08 399

原创 HDFS常用命令整理

一、hdfs基本操作hadoop fs 与hdfs dfs等价1.如何查看hdfs子命令的帮助信息,如lshdfs dfs -help rmdir2.查看hdfs文件系统中已经存在的文件hdfs dfs -ls /hadoop fs -ls /3.在hdfs文件系统中创建文件hdfs dfs -touch /czz.txt4.从本地路径上传文件到hdfshdfs dfs -pu...

2019-09-09 20:13:41 465

原创 sqoop 从mysql导入数据到 hadoop出错 Name node is in safe mode.

ERROR tool.ImportTool: Import failed: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete /tmp/hadoop-yarn/staging/root/.staging/job_15643788...

2019-09-09 20:07:45 733

原创 hive启动时错误

Exception in thread “main” java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Hive metastore database...

2019-09-09 20:05:51 413

原创 AQS

AQS全称为AbstractQueuedSynchronizer,是并发容器中的同步器，AQS是J.U.C的核心，它是抽象的队列式的同步器，AQS定义了一套多线程访问共享资源的同步器框架，许多同步类都依赖它，如ReentrantLock、Semaphore、CyclicBarrier、ReentrantLock、Condition、FutureTask等。AQS的特点：a、使用Node实现FI...

2019-08-26 16:26:30 237

原创 java多线程整理

什么是线程？线程是操作系统能够进行运算调度的最小单位，它被包含在进程之中，是进程中的实际运作单位。程序员可以通过它进行多处理器编程，你可以使用多线程对运算密集型任务提速。比如，如果一个线程完成一个任务要100毫秒，那么用十个线程完成改任务只需10毫秒。Java在语言层面对多线程提供了卓越的支持，它也是一个很好的卖点。线程和进程有什么区别？线程是进程的子集，一个进程可以有很多线程，...

2019-08-26 16:14:22 210

原创 Redis特点和优势

Redis的特点：1、内存数据库，速度快，也支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。2、Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。3、Redis支持数据的备份，即master-slave模式的数据备份。4、支持事务Redis的优势：1、性能极高 – Redis能读的速...

2019-08-19 19:46:17 441

原创数据库查询优化

1.使用索引应尽量避免全表扫描，首先应考虑在 where 及 order by ,group by 涉及的列上建立索引2.优化 SQL 语句2.1通过 explain(查询优化神器)用来查看 SQL 语句的执行效果可以帮助选择更好的索引和优化查询语句，写出更好的优化语句。通常我们可以对比较复杂的尤其是涉及到多表的 SELECT 语句，把关键字 EXPLAIN 加到前面， ...

2019-08-19 19:01:52 234

原创 hive优缺点及应用场景

（一）hive的优点 (1)简单容易上手：提供了类SQL查询语言HQL (2)可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）一般情况下不需要重启服务Hive可以自由的扩展集群的规模。 (3)提供统一的元数据管理 (4)延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数 (5)容错：良好的容错性，节点出现问题SQ...

2019-08-02 09:10:59 2575

原创 scikit-learn Adaboost类库使用小结

1. Adaboost类库概述scikit-learn中Adaboost类库比较直接，就是AdaBoostClassifier和AdaBoostRegressor两个，从名字就可以看出AdaBoostClassifier用于分类，AdaBoostRegressor用于回归。AdaBoostClassifier使用了两种Adaboost分类算法的实现，SAMME和SAMME.R。而AdaBoos...

2019-07-14 10:17:43 439

原创 Baggging 和Boosting的区别

Baggging 和Boosting都是模型融合的方法，可以将弱分类器融合之后形成一个强分类器，而且融合之后的效果会比最好的弱分类器更好。Bagging:先介绍Bagging方法：Bagging即套袋法，其算法过程如下：从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进...

2019-04-23 20:10:07 531

原创百度云盘资料

(前台)1.ps 链接:https://pan.baidu.com/s/1mjYbcJA密码：pqdt2.HTML5+CSS3从入门到精通.iso链接:https://pan.baidu.com/s/1mjYbcJA密码：gdyw3.Javascript视频教程链接: https://pan.baidu.com/s/1i6eC5YP密码：ku5k4.Jquery视频教程链接：...

2019-04-02 21:16:35 3152

原创 JRE和JDK的区别

JDK（Java Development Kit）是针对Java开发员的产品，是整个Java的核心，包括了Java运行环境JRE、Java工具和Java基础类库。Java Runtime Environment（JRE）是运行JAVA程序所必须的环境的集合，包含JVM标准实现及Java核心类库。JVM是Java Virtual Machine（Java虚拟机）的缩写，是整个java实现跨平台的最核...

2019-04-02 19:21:05 272

原创重载与重写

方法重载是指同一个类中的多个方法具有相同的名字,但这些方法具有不同的参数列表,即参数的数量或参数类型不能完全相同方法重写是存在子父类之间的,子类定义的方法与父类中的方法具有相同的方法名字,相同的参数表和相同的返回类型注:(1)子类中不能重写父类中的final方法(2)子类中必须重写父类中的abstract方法1.重载(Overload)在一个类中，同名的方法如果有不同的参数列表（参数类...

2019-04-01 20:46:46 213

原创 final关键字

一、final关键字可以用来修饰类、方法、变量。各有不同。A、修饰类(class)。1、该类不能被继承。2、类中的方法不会被覆盖，因此默认都是final的。3、用途：设计类时，如果该类不需要有子类，不必要被扩展，类的实现细节不允许被改变，那么就设计成final类B、修饰方法(method)1、该方法可以被继承，但是不能被覆盖。2、用途：一个类不允许子类覆盖该方法，则用final来...

2019-04-01 20:14:55 200

原创 linux基本知识点

1.mkdir和rmdir命令mkdir用于创建文件夹,创建文件夹时应确保与它所在的目录下的没有同名文件夹。mkdir A一次创建多个文件夹：mkdir B C D加上-p参数可以创建带有子目录的文件夹：mkdir -p dira/dirb/dirc删除目录：rmdir abc递归删除带有子目录的文件夹:rmdir -p dira/dirb/dirc2.cp命令cp命令是L...

2019-03-13 19:28:06 451

原创 scikit-learn决策树算法类库使用小结

https://www.cnblogs.com/pinard/p/6056319.htmlBallTree：https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.BallTree.html#sklearn.neighbors.BallTreeKDTree：https://scikit-learn.org/st...

2019-03-03 10:51:02 272

原创 JAVA基础

1.Java语言的数据类型有几种?其中基本数据有哪些?分别是什么?基本数据类型： 8种byte(字节) 1(8位) （bit是比特位，一个字节占8个比特位）shot(短整型) 2(16位)int(整型) 4(32位)long(长整型) 8(64位)float(浮点型) 4(32位)double(双精度) ...

2019-03-03 10:50:36 271

原创 java_数组

数组声明：数据类型 [ ] 数组名； int [ ] a；数据类型数组名 [ ] ； double b [ ]；创建数组对象：数组名 =new 数据类型 [数组长度]； a=new int [2]； String [ ] s=new String [2]；复制数组1.for循环方法：2.System.arraycopy()方法：3.Arrays.copyOf()方法：...

2019-02-27 20:55:41 248

原创 User-Agent

常见User-AgentFirefoxMozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6....

2018-11-18 09:30:13 837

转载文件类型魔数

1、从Ultra－edit-32中提取出来的JPEG (jpg)，文件头：FFD8FFPNG (png)，文件头：89504E47GIF (gif)，文件头：47494638TIFF (tif)，文件头：49492A00Windows Bitmap (bmp)，文件头：424DCAD (dwg)，文件头：41433130Adobe Photoshop (psd)，文件头：384250...

2018-10-31 19:46:18 2811

空空如也

空空如也