自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 Flume

Flume简介:1.1 大数据处理流程数据源(RDBMS,日志文件,web数据)数据采集(sqoop,flume,kafka) ---> 数据存储(hdfs,hbase,es) ----> 数据清洗(mapreduce,hive,spark) ---> 数据分析(mapreduce,hive,spark) ---> 数据存储(mysql,oracle,sqlserver) ----> web展示flume简介:Flume是一种分布式的,可靠的,高可用的服务,用于有效的

2021-07-21 08:39:08 330

原创 Hbase

Hbase来源:1、hdfs的数据读写延迟高2、不能近实时更新删除局部数据3、hive的数据必须要指定的列或者字段,必须要格式化的数据。4、hbase来源于google的bigtable。定义:Hbase是一个基于Hadoop的开源, 分布式的,多版本的,可扩展的,非关系型数据库,能够处理海量数据(数十亿行和百万列)。特性:Hbase的表模型和关系型数据库的表模型不同Hbase的表没有固定的字段定义Hbase的表每行存储的都是一行key-value对Hbase的表中有列簇的划分,

2021-07-21 08:38:24 206

原创 Hive高级

查询语句基本语法:sql查询的基本结构:select * 要查询的列from tablename 要查询的表join on 连接的表where 查询条件group by 分组查询order by 字段排序sort by 结果排序limit 限制结果数union/union all 合并表hql的执行顺序:fromonjoinwheregroup byhavingselectdistinctorder bylimit---举例explainselect

2021-07-12 15:32:21 373

原创 Hive入门

Hive定义:Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以提供类似SQL的方式来对数据文件进行读写以及管理,这套Hive SQL简称为HQL,Hive的引擎可以是MR,Spark,Tez本质:Hive的本质是将HQL转换成MapReduce任务,完成整个数据的分析查询,减少编写MapReduce的复杂度优点:1.学习成本低2.海量数据分析3.可扩展性4.延展性5.良好的容错性6.统计管理缺点:1.Hive的HQL表达能力有限2.迭代式

2021-07-12 15:31:01 834

原创 Zookeeper

Zookeeper定义:是为分式应用程序提供的一个分布式开源协调服务框架,主要用于解决分布式集群中应用系统的一致性问题,提供了基于类似Unix系统的目录节点树方式的数据存储,可用于维护和监控存储的数据的状态的变化,通过监控这些数据状态的变化,从而达到基于数据的集群管理,是Hadoop和Hbase的重要组件数据模型:树形结构zookeeper被设计用来实现协调服务(这类服务通常使用小数据文件),而不是用于大容量数据存储,因此一个znode能存储的数据被限制在1Mb以内每个znode都可以通过其路径唯一

2021-07-12 15:30:19 856

原创 MapReduce

MapReducemapreduce是apache hadoop项目的一个核心模块。是一个运行在hdfs上的分布式运算程序的编程框架,用于大规模的数据集(大于1TB)的并行运算优点:1.MapReduce易于编程2.良好的可扩展性3.高容错性4.适合pb以上海量数据的离线处理缺点:1.不适合做实时运算2.不适合流式计算3.不适合有向图的计算核心思想:1.mapreduce设计的一个理念就是"计算向数据靠拢",移动计算而不移动数据2.将用户编写的业务逻辑代码和自带默认组件整合成一

2021-07-12 15:29:23 637

原创 HDFS入门

企业大数据的一般工作流程:数据源:数据的来源有如下的内容: -关系型数据库 各种关系表,如订单表,账号表,基本信息表 -日志文件 用户行为数据 浏览了哪些页面(网页,App,电视机顶盒),导航栏上的哪些选项等 -第三方数据 第三方的接口提供数据 爬虫数据采集或者同步:常用的数据采集导入框架: -sqoop: 用于RDBMS和HDFS之间数据导入与导出 -flume: 采集日志文件数据,动态的采集日志文件,数据流 flume采集到的数据,一份给HDFS,用于

2021-07-12 15:28:04 292

原创 Linux常用命令

Linux常用命令命令格式:命令 [-选项] [参数]eg:ls -la /root说明:1.大部分命令遵循此格式2.多个选项时,可以一起写eg:ls -l -a ---->ls -lahelp1.查看shell内置命令的帮助信息help 命令名eg:help cd2.查看其他命令的帮助信息方式一:命令名 --help方式二:命令名 --help 列举该命令的常用选项eg:cp --help文件处理命令cd:change directory 命令途径:内部命令

2021-06-28 17:28:02 159

原创 shell编程:

shell编程:shell的概念介绍:1.1命令解释器:shell是命令解释器(command interpreter),是Unix操作系统的用户接口,程序从用户接口得到的输入信息,shell将用户程序及其输入翻译成操作系统内核(kernel)能够识别的指令,并且操作系统内核执行完将返回的输出通过shell在呈现给用户,下图所示用户,shell,和操作系统之间的关系[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L8Ujhb0I-1624872441787)(C:\Us

2021-06-28 17:27:31 280

原创 软件管理机制:

软件管理机制:Linux下的软件的安装大概可以分为如下几种 :1.二进制程序的安装(最简单安装)2.rpm程序安装(后缀名为*.rpm)3.yum源安装(本质也是rpm安装,它只是rpm的一种安装方式而已)4.源码安装二进制安装:Linux下二进制格式的软件是指事先在各种平台编译好的相关软件,然后压缩打包,在安装时,只需要解压或是执行安装可执行文件即可,这种软件发行格式类似于windows系统 ,这样做的原因时保护源代码程序不对外泄露,保护知识产权,二进制软件包的优点就是安装简单容易,缺点:

2021-06-26 17:26:52 184

原创 SpringzBoot项目踩雷:

SpringzBoot项目踩雷:1.Application启动程序一定要放在最外层,其他的放在controller包下SpringBoot项目目录详解: 1.pom.xml文件: 1.制定了一个父工程:指定当前工程为SpringBoot。帮助我们声明了starter依赖的版本 2.项目的元数据:包名,项目名,版本号 3.指定了properties信息,指定了java的版本时1.8 4.导入依赖:默认情况下,导入spring-boot-starter,spring-boot-starte

2021-06-26 17:21:49 111

原创 JDBC高级

JDBC高级JDBC的事务支持:1.当一个业务需要涉及到N个DML操作的时候,这个业务(或者是N个DML操作,当成一个整体来处理)。在处理的过程中,如果有失败或者异常,我们要回到业务开始时,如果处理成功,我们在将数据持久化到磁盘中,这样一个过程称为一个事务,事物具有原子性,不可切割总结:事务是指逻辑上的一组操作,组成这组操作的各个单元要么全成功,要么全不成功关键字: commit rollback savepoint事务的特性:atomicity(原子性):事务是一个

2021-06-26 17:18:49 132

原创 JDBC编程入门

JDBC编程入门代码编写步骤:1.创建项目,加载相应的静态资源,如图片,第三方jar包 1.1.在当前工程下新建一个文件夹 1.2.将“mysql-connector-java-5.0.8-bin.jar”导入文件夹 1.3选中文件夹,点击add as libaray2.注册加载驱动3.建立连接4.获取执行对象5.处理结果集6.关闭连接ODBC:因为市场需求,微软定义了一组用于数据库应用程序的编程接口ODBC(open database connectivity),这一套方案大大缩

2021-06-26 17:18:10 61

原创 Linux常用命令

Linux常用命令命令格式:命令 [-选项] [参数]eg:ls -la /root说明:1.大部分命令遵循此格式2.多个选项时,可以一起写eg:ls -l -a ---->ls -lahelp1.查看shell内置命令的帮助信息help 命令名eg:help cd2.查看其他命令的帮助信息方式一:命令名 --help方式二:命令名 --help 列举该命令的常用选项eg:cp --help文件处理命令cd:change directory 命令途径:内部命令

2021-06-26 17:10:22 77

原创 网络编程相关概念

网络编程计算机网络:所谓计算机网络,就是把分布在不同区域的计算机与专门的外部设备用通信线路相互连接成一个规模大,而且功能强的网络系统,从而使得计算机之间可以相互传递信息,共享数据网络编程:所谓的网络编程,指的就是在同一个网络中不同的机器之间的通信计算机之间通信需要的条件:IP地址:IP地址指的是互联网地址(Internet Protocol Address),是联网设备与互联网之间的唯一标识,在同一个网段里,IP地址是唯一的IP地址是数字型的,是一个32位的整数,通常将其分为4个8位的二进制

2021-06-15 08:52:32 163

原创 SQL高级:

SQL高级:数据的完整性:作用:保证用户输入的数据保存到数据库中是正确的,确保数据的完整性=在建表的时候给表添加约束完整性的分类:实体完整性,域完整性,引用完整性实体完整性:定义:表中每一行数据(记录)代表一个实体(entity)实体完整性的作用:表示每一行数据不重复约束类型:主键约束(primary key):(特点)每个表中只有一个主键,被约束的数据唯一,且不能为null-- 第一种方式:在写列名的时候直接指明主键CREATE TABLE s1( id INT PRIMARY KE

2021-06-15 08:48:40 85

原创 SQL概述:

sql概述:SQL:Structure Query Language(结构化查询语句)sql的分类:DDL(Data Definition Language):数据定义语言,用来定义数据库对象:库,表,列等DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据)DCL(Data Control Language):数据控制语言,用来定义访问权限和安全级别DQL(Data Query Language):数据查询语言,用来查询记录(数据)。注意:sq

2021-06-15 08:48:09 123

原创 IO流高级

IO高级缓冲流简介:给普通的IO流套上一个缓冲区,所有的使用缓冲流进行的读写操作都是和缓冲区进行交互的,避免了频繁的IO操作,这样一来,带来的好处就是可以提高读写的效率,这个缓冲区实质上是一个数组。缓冲流的作用:为了提高读写的能力,本身没有读写的能力,要想进行读写就必须借助字符流/字节流实现,可以将缓冲流类比于催化剂或者高速的小车常见的缓冲流:BufferedInputStream:缓冲字节输入流BufferedOutputStream:缓冲字节输出流BufferedReader:缓冲字符输

2021-06-06 16:18:45 209

原创 IO流基础

IO流IO流:Input/Output Stream流:指的是一串流动的数据,在数据在流中按照指定的方向进行流动,实现数据的读取,写入的功能作用:实现两个设备之间数据的传递File类:使用File类只能做关于文件的操作,获取属性,创建文件,修改文件,移动文件等操作,但不包含读取文件中的内容,如果需要读取,修改文件中的内容,此时就需要使用IO流设备:能输入或者输出数据的都可以称为设备例如:硬盘(磁盘),内存,键盘,文件,网络,控制台网络:当前主机外的网上资源IO流的分类:按照传输数据的单位

2021-06-06 16:18:14 66

原创 多线程基础

多线程线程使用的目的:在程序中完成某一功能的时候吗,我们会将他描述成任务,这个任务需要在线程中完成串行与并发:如果在程序中,有多个任务需要被处理,此时的处理方式可以有串行和并发:串行(同步):所有的任务,按照一定的顺序,依次执行,如果前面的任务没有执行结束,后面的任务等待并发(异步):将多个任务同时执行,在一个时间段内,同时处理多个任务生活中,其实有很多串行和并发的案例,最常见的就是排队买饭,小明到KFC吃饭,发现有好几个窗口可以点餐,选择了其中一个窗口进行排队,此时,KFC采用的模式就是串行

2021-06-06 16:17:29 315

原创 集合精通(Set + Map)

集合精通Set集合:HashSet集合和TreeSet集合的区别:HashSet:底层是hash表,线程不安全TreeSet:底层是二叉树,线程不安全哈希表:简介:Set集合的两个实现类HashSet和LinkedHashSet,底层实现都是哈希表1.Hash,一般译为散列,也有直接译为哈希的,它是一个基于快速存取的角度设计的,也是一种典型的空间换时间的做法,顾名思义,该数据结构可以理解为一个线性表,但是其中的元素不是紧密排列的,而是可能存在空隙2.散列表(Hash Table):是根据键值

2021-05-31 08:47:13 131

原创 集合深入(List)

集合深入List详解ArrayList与LinkedList的区别:1.相同点:都是List集合中常用的实现类对集合中的元素操作的方法基本一致都是线程不安全的2.不同点:ArrayList的底层实现是数组,使用数组这种数据结构进行数据的存储LinkedList的底层实现是双链表,使用双链表这种数据结构进行数据的存储数组和链表结果特点比较:数组实现功能时查找快,增删慢链表实现功能时,查找慢,增删快使用场景:如果对集合中的元素,增删操作不怎么频繁,查询比较频繁时,使用ArrayLis

2021-05-30 19:21:18 106

原创 包装类和异常

包装类定义:专门将简单数据类型的数据进行封装,形成对应的包装类基本数据类型包装类型byteByteshortShortintIntegerlongLongdoubleDoublefloatFloatcharCharacterbooleanBoolean装箱拆箱:手动装箱概念:由基本数据类型,完成向对应的包装类型进行转换作用:为了更好的存储方式1:可以通过每一个包装类的构造方法来完成。在每一个包装类的构造方法中,

2021-05-29 11:20:34 98

原创 接口(interface)

接口(interface)接口代表了某种能力,类似于生活中的合同,而在接口定义的各个方法,表示了这个能力的具体的要求,类似于合同中的条款接口中可以定义:属性:公开静态属性方法:公开抽象方法特点:一般接口中不写成员变量,只写方法,所以又将接口称为方法列表接口的作用:让java从单继承间接实现了多继承,扩充了原来的功能,我们可以认为接口是类的补充接口和抽象类的异同:相同:1.都可以编译成字节码文件2.都不能创建对象3.都可以声明引用4.都具备Object类中定义的方法5.都可以写抽

2021-05-29 11:19:56 267

原创 面向对象入门

面向对象入门面向对象的优点:1.符合人们思考习惯2.将复杂的事情简单化3.将程序员从执行者转换成指挥者语法:[public/private/protected/default] class 类名{ 成员属性; 成员方法;}对象的实例化:new 类名();匿名对象:1.用作方法参数2.用作匿名内部类类中的成员访问:1.使用static修饰的属性,方法称为静态属性,静态方法2.没有被static修饰的属性,方法称为非静态属性,非静态方法,又被称为实例属性,实例方法空间

2021-05-29 11:19:23 97

原创 Java基础

程序的执行结构:顺序结构分支结构循环结构分支流程控制:ifswitch循环for循环和while循环的区别当我们想使用i时,并且已知循环此数时,使用for循环,当我们仅仅是想利用循环判断结束或是不知道循环次数时,使用while循环do-while和while的区别do-while不管条件一定先执行一次,但while是先判断条件是否成立再决定执行与否continue:作用范围仅限于循环中,表示立即结束本次循环开始下一次循环break:作用范围为:循环和switch分支结构中。在循

2021-05-29 11:18:51 49

原创 大数据入门

大数据入门大数据的概念:海量数据,具有高增长率,数据类型多样化,一定时间内无法使用常规软件工具进行捕捉,管理和处理的数据集合。大数据的5V特征:Volume(大量):数据的大小决定所考虑的数据的价值和潜在的信息Velocity(速度):获得数据的速度Variety(多样):数据类型的多样性Value(价值):合理运用大数据,以低成本创造高价值Veracity(真实):数据的质量大数据的应用场景:预测犯罪,预测流感的爆发,预测选举,根据手机定位和交通数据,规划城市,根据库存和需求,实施调价

2021-05-29 11:18:15 179

原创 字符串和正则表达式

字符串和正则表达式字符串原理:概念:字符串是有若干的字符组成的组成的一个有序序列,用一个String来表示一个字符串,字符串中的内容用双引号括起来,在双引号中,字符的数量不限制,可以是0个,可以是多个。字符串的分类不可变长字符串:1.对应的类:String2.特点:字符串本身不能发生改变,与指向字符串的引用无关3.创建:直接使用“”,创建的是不可变长字符串String str = "Hello World";可变长字符串:1.对应的类:StringBuffer/StringBuild

2021-05-29 11:06:56 596

原创 Collection集合入门

集合集合的概念:集合和数组类似,是一个数组容器,用来存储引用数据类型的数据,在Java中,集合不是泛指某一个类,而是若干个类组成的数据结构的实现Java的集合类是Java.util包中的重要内容,它允许以各种方式将元素进行分组,并定义了各种使这些元素更容易操作的方法Java集合类是Java将一些基本的和使用频率极高的基础类进行封装和增强后再以一个类的形式提供使用java集合类是可以往里面保存多个对象的类,存放的是对象,不同的集合类有不同的功能和特点,适用不同的场合,用来解决一些实际的问题集合的特

2021-05-29 11:06:33 621

原创 lambda表达式:

lambda表达式:使用场景:1.使用lambda表达式是为了简化接口实现,本质上只是一个匿名函数,可以使用这个匿名函数实现接口中的方法,对接口进行非常简单的实现,从而简化代码2.lanbda表达式是能实现函数式接口函数式接口的概念:如果说,一个接口中要求实现磊必须实现的抽象方法,有且只有一个,这样的接口,就是函数式接口@FunctionalInterface:是一个注解,用在接口之前,判断这个接口是否是一个函数式接口,如果是一个函数式接口,如果不是函数时接口,没有问题,但如果不是函数式接口,则

2021-05-29 11:05:44 91

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除