自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 spark面试题

1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者磁盘中;2.RDD中的分区是可以改变的;五大特性:1.A list of partitions:一个分区列

2021-08-27 22:11:32 1707

原创 spark 性能优化与故障处理

Spark 性能调优第一章Spark 性能调优1.1常规性能调优1.1.1常规性能调优一:最优资源配置Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit –

2021-08-27 22:10:27 714

原创 数仓面试题

数仓面试题问题一:什么叫数据仓库?数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,它用于支持企业或者组织的决策分析处理数据仓库是为了便于多维分析和多角度展现而将数据按特定模式进行存储所建立起来的关系型数据库,他的数据基于OLTP系统。首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了充足,并包含历史数据,而且存放在数据仓库中的数据一般不再进行修改问题二:为什么需要数据仓库建模?数仓建模需要按照一定

2021-08-27 22:08:58 2798

原创 大数据部分总结

HadoopHADOOP是apache旗下的一套开源软件平台提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统)ARN(运算资源调度系统)MAPREDUCE(分布式运算编程框架)重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件M

2021-08-27 22:06:00 996

原创 大数据面试题2

大数据项目之企业级数据仓库实战第一章 数据仓库概述1.1数据仓库简介1.1.1什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。1.1.2什么是数据仓库?数据仓库是决

2021-08-27 22:03:27 1407

原创 大数据面试题

大数据项目之企业级数据仓库实战第一章 数据仓库概述1.1数据仓库简介1.1.1什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。1.1.2什么是数据仓库?数据仓库是决

2021-08-27 22:01:35 1262

原创 hive基础学习

6.1.1 全表和特定列查询1.全表查询hive (default)> select * from emp;2.选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写。(5)使用缩进提高语句的可读性。6.1.2 列别名1.重命名一个列2.便于计算3.紧跟列名,也可以在列名和别名之间加入关键字‘

2021-08-27 21:59:53 440

原创 大数据hive

大数据技术hive第1章Hive基本概念第2章1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。mapreduce : 海量数据的分布式计算框架.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。mapreduce wordcount。jacktomjacktomjack// 编写sql语句.如何计算出每个次的数量.select name,count(*) from word grou

2021-08-27 21:58:16 314

原创 大数据技术之Zookeeper

第1章 Zookeeper概述1.1 概述zoo 动物园。keeper 管理员。hadoop 大象, hive蜜蜂,Pig 猪。Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master

2021-01-04 08:43:36 155

原创 shuffle过程简介

shuffle: 洗牌,清洗。// 源文件:public static void main hellohello static private asdfasdf ba c abcpublic 1static 2 hello 2*shuffle过程是MapReduce整个工作流程的核心环节map : mapShufflereduce: reduceShuffle **1.在Map端的shuffle过程:Map输出的结果首先被写入缓存,当缓存满时,启动溢写(环形缓冲

2021-01-04 08:42:30 1279

原创 大数据技术之Hadoop(MapReduce)

大数据技术之Hadoop(MapReduce)(作者:大数据研发部)版本:V1.4第1章MapReduce入门map 计算reduce 规约1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1.MapReduce

2021-01-04 08:41:26 503

原创 大数据技术之Hadoop阶段考试题及答案

入门1.简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。1)准备三台客户机(配置IP,配置主机名…)2)安装jdk,安装hadoop3)配置JAVA_HOME和HADOOP_HOME4)使每个节点上的环境变量生效(source /etc/profile)5)准备分发脚本 xsynca)**在/user/atguigu/bin下创建脚本:xsync6)明确集群的配置7)修改配置文件a)**core-site.xmlb)**hadoo

2021-01-04 08:39:06 4474

原创 hdfs

HDFSHadoop四大模块:common、HDFS、Yarn、MapReduce。1HDFS是什么?HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。2HDFS 从何

2021-01-04 08:37:29 477

原创 大数据 hadoop

1.HADOOP背景介绍1.1 什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS(分布式文件系统)B.YARN(运算资源调度系统)C.MAPREDUCE(分布式运算编程框架)4.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 HADOOP产生背景1.HADOOP最早起源于Nutch。Nutch的设计

2021-01-04 08:35:48 450

原创 redise

NOSQL : 非关系型数据库。 Redis Memcached mongoudb hbase.: NOSQL: 不是sql。寓意:不是关系型数据库。: 所有操作,基于内存。: 只有 key value: 不支持sql语句。: 没有关系。 关系型数据库: MySQL oracle db2 sql server : 增删改查的操作: 都基于磁盘。 :数据库中,有表,有约束,有对象,有视图,有索引…… :有sql语句。

2021-01-04 08:33:23 218

原创 liunx中 mysql安装

1rpm -qa | grep mysql2 卸载已有的mysql库包rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_643用rpm方式安装mysql的server端 (man rpm 查看-ivh的具体意思)rpm -ivh ./MySQL-server-5.5.47-1.linux2.6.x86_64.rpm4用rpm方式安装mysql的client端rpm -ivh ./MySQL-client-5.5.47-1.linux2.6.x86_64.r

2021-01-04 08:31:37 108

原创 liunx入门

一.Linux介绍Unix:Linux: linux is not unixLinux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux操作系统诞生于1991 年10 月5 日(这是第一次正式向外公布时间)。Linux存在着许多不同的Linux版本,但它们

2021-01-04 08:30:07 1429

原创 spring的简单基础

Spring框架版本:V 1.0第1章 Spring概述1.1 Spring概述1)Spring是一个开源框架2)Spring为简化企业级开发而生,使用Spring,JavaBean就可以实现很多以前要靠EJB(Enterprise JavaBean)才能实现的功能。同样的功能,在EJB中要通过繁琐的配置和复杂的代码才能够实现,而在Spring中却非常的优雅和简洁。3)Spring是一个IOC(控制反转)(DI)和AOP(面向切面编程)容器框架。4)Spring的优良特性① 非

2021-01-04 08:26:40 406

原创 myBatis 详解及基础使用(2)

select查询的几种情况1)查询单行数据返回单个对象public Employee getEmployeeById(Integer id );2)查询多行数据返回对象的集合public List getAllEmps();3)查询单行数据返回Map集合public Map<String,Object> getEmployeeByIdReturnMap(Integer id );4)查询多行数据返回Map集合@MapKey(“id”) // 指定使用对象的哪个属性来充当map的k

2020-10-20 20:17:43 156

原创 myBatis 详解及基础使用(1)

myBatis 详解及基础使用MyBatis历史1)MyBatis是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation 迁移到了Google Code,随着开发团队转投Google Code旗下, iBatis3.x 正式更名为MyBatis ,代码于2013年11月迁移到Github2)iBatis一词来源于“internet”和“abatis”的组合,是一个基于Java的持久层框架。 iBatis 提供的持久层框架包括SQL M

2020-10-19 19:28:42 172

原创 Map 前

Map集合: 一个包含键值对映射的对象集合Key : 键value : 值一个键只能有一个值 键不能重复 无序的 值可以重复HashMappublic static void main(String[] args) { // key value HashMap<String,Integer> map = new HashMap<>();...

2019-11-10 20:41:16 129

原创 list集合

list 集合 储存的元素 有序的可重复的ArrayLisy 内部的储存原理是 数组 默认构建的容量是10public static void main(String[] args) { //创建数组 ArrayList<String> list = new ArrayList<>(); //向集合内部追加元素 list.add("a"); list...

2019-11-10 20:39:19 151

原创 set

Set 集合的特征 : 存储的元素 (引用数据类型) 无序的 不可重复的HashSet 内部存储的是一个散列表 hashSet 内部实现的是一个 HashMap。集合存在的意义 就是存储对象 //接口 = 实现类 Set<String> set = new HashSet<String>();...

2019-11-10 20:35:42 115

原创 java中的异常处理机制的简单原理和应用

当java程序员违反了java的语义规则时 java虚拟机就会将发生的错误表示为一个异常违反语义包括两种情况一种是java类库内置的语义检查 例如 数组下标越界 会引发IndexOutOfBoundsException;访问null对象时 会引发NullPointerException另一种情况就是 java允许程序员扩展这种语义检查 程序员可以创建自己的异常,并自由选择在何时用thro...

2019-11-10 20:27:10 464

原创 枚举类型 Enum

枚举类型 Enumpublic class EnumTest { public static void main(String[] args) { Student student = new Student(); student.name = "金莲"; student.age = 16; student.sex = EnumSex.女; ...

2019-11-10 20:10:58 126

原创 api 系统类 math类

System类System.gc() 系统垃圾回收系统垃圾 无用的变量 对象 执行结束的方法GC 是什么 为什么要有GC GC是垃圾收集的意思(Gabage Collection)内存处理是编程人员容易出现问题的地方 忘记或者错误的内存回收会导致程序或系统的不稳定甚至崩溃java 中 提供GC功能 可以自动检测对象是否超过作用域从而达到自动回收内存的目的java语言没有提供释放...

2019-11-10 20:07:16 160

原创 api 时间

SimpleDateFormat 时间格式化 Calendar calendar = Calendar.getInstance(); System.out.println(calendar.getTimeInMillis()); SimpleDateFormat format = new SimpleDateFormat("北京时间: yyyy-MM-dd hh:" + "mm:...

2019-11-10 20:00:54 203

原创 API String StringBuffer StringBuilder

如何查看帮助文档String 常用方法构造方法 String(); String(byte[] bytes); String(“abc”); String("char[] chars);String 空参构造方法。 String s1 = new String();byte数组构造方法。 byte[] bs = {1,2,3}; String s2 = new...

2019-11-04 16:52:32 229

原创 final关键字

finalfinal 最终的 不可改变的final 修饰变量 表示常量不能再次被赋值 常量要求全部大写final 修饰方法 表示方法不能被重写final 修饰类 表示类不能被继承final 修饰对象 表示对象不能再new实例String 就是被final修饰的类 不能再被继承在这里插入代码片...

2019-10-22 20:15:55 605

原创 面向对象 抽象具体用法 接口

面向对象回顾面向对象:抽象 封装 继承 多态1 抽象:将现实中的事物抽取出事物的属性和方法,封装成对象,通过对象的实例化和调用完成需求。例:Studet stu = new Student();2 封装:隐藏类的内部细节,提供外部访问的接口。将多次重复运行的代码,封装到方法中,减少代码的冗余,提高代码的重用性。例:private int a = 10;public int...

2019-10-22 14:54:19 211

原创 java中访问修饰符 多态

java中的访问修饰符访问修饰符本类本类其他类(子类)其他类其他包子类public 公共的√√√√–––––private 私有的√×××–––––default 缺省的 默认的√√××–––––protected√√×√多态一种类型 多种形态 对象在创建

2019-10-21 20:37:37 260

原创 继承

继承什么是继承?继承是一种联结类的层次模型,并且允许和鼓励类的重用, 它提供了一种明确表述共性的方法。对象的一个新类可以从现有的类中派生, 这个过程称为类继承。新类继承了原始类的特性, 新类称为原始类的派生类(子类),而 原始类称为新类的基类(父类)。派生类可以从它的基类那里继承方法和实例变量,并且类可以修改或增加新的方法使之更适合特殊的需要。继承就是 子类可以继承父类公有的属性和方法 继...

2019-10-17 18:13:30 209

原创 封装 构造方法 方法的重载

封装隐藏类的内部细节 提供访问外部的接口封装内的属性有私有属性 private修饰符 来修饰封装使用 set get 方法this 表示 当前对象简而言之就是包装 也可以认为是信息隐藏 是指利用抽象数据类型将数据和数据的操作封装在一起 数据被保护在抽象数据类型内部尽可能的隐藏内部细节 只保留对外的接口 可以与外部发生关联使用者无需知道对象内部细节,可以直接通过外部接口来访问该对象...

2019-10-16 16:18:33 216

原创 全局变量 局部变量 静态变量 成员变量 static关键字 值传递

全局变量定义在类中 方法外的变量叫做全局变量 全局变量所有方法均能够访问局部变量作用域从定义位置开始 到代码块结束static关键字static关键字修饰的变量是静态变量 使用类名.变量直接访问 当虚拟机启动时即加载变量到内存中不需要创建对象static关键字修饰的方法是静态方法 使用类名.方法直接访问 静态方法中不能访问成员变量类变量(静态变量)定义在类中 使用static ...

2019-10-14 17:03:50 298

原创 面向对象

什么是面向对象?面向对象 将现实生活中的事物 封装成对象 同过对象的实例化和调用 完成需求,面向对象 关注点就是对象的属性和方法而忽略事物执行的顺序和过程面向过程 将现实中的事物 按照发生的顺序使用代码顺序执行 关注事物执行顺序面向对象的特征抽象 : 抽象就是一个忽略一个主题中与当前目标无关的那些方面 以便充分注意与当前目标有关的方面 抽象并不打算了解全部问题 而是选择其中一部分 暂时不用...

2019-10-13 21:02:07 225

原创 初级 java 基础学习知识 1

java 创始人 詹姆斯·高斯林1995年5月 由Sum公司推出java分为三个体系(版本)J2SE java 标准版J2EE 企业版J2ME 嵌入式版java 特点java 是完全面向对象的语言 ,支持 ,继承, 多态等面向对象的特性是一种强制类型的语言 区分大小写字母提供垃圾回收机制 gc跨平台性 一次编译到处运行,不同操作系统会有不同的java...

2019-10-11 19:53:04 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除