自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 数据湖-简介

数据湖初识百度百科解释产生的由来数据湖与数据仓库对比数据湖的优点数据湖生命周期数据湖的缺点百度百科解释数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。什么是数据湖??数据湖是一个集中...

2019-06-13 10:43:55 3074

原创 streaing-kafka

Kafka-消费模型High Level Consumer API不需要自己管理offset默认实现最少一次消息传递语义(At least once)comsumer数量 大于 partiton数量, 浪费。comsumer数量 小于 partiton数量, 一个comsumer对应多个partiton最好partiton数目是consumer数目的整数倍Low Level Cons...

2019-05-28 19:37:33 234

转载 RDD转换成DataFrame的两种方式(分别用Java和scala实现)

一:准备数据源 在项目下新建一个student.txt文件,里面的内容为:1,zhangsan,202,lisi,213,wanger,194,fangliu,18二:实现Java版:1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下:import java.io.Serializable; public cla...

2019-05-23 11:56:09 256

原创 spark core试题

(第八题后续补上)spark任务程序,将任务提交集群运行。(参数指定)(10)spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.11-2.1.1.jar \ 100...

2019-05-23 10:59:55 745

原创 spark初步理解和认识

了解spark前应学习hadoop体系和scala语言1. 概念Spark是一种快速、通用、可扩展的大数据分析引擎spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目**2.**Spark特点2.1****快与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬...

2019-05-23 10:27:30 246

原创 Docker的简介及理解

官方:Docker简介核心概念:镜像、容器、仓库docker是一个开源项目,基于GO语言实现的云开源项目,诞生于2013年初docker项目现在已加入Apache基金会,遵循Apache2.0协议源代码在Github(GitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名GitHub)上维护 git:https://www.runoob...

2019-05-18 12:58:00 188

转载 RDD的partition通俗易懂的介绍

RDD是什么?弹性分布式数据集。弹性:并不是指他可以动态扩展,而是血统容错机制。分布式:顾名思义,RDD会在多个节点上存储,就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上,而RDD是被切分为多个partition。不同的partition可能在不同的节点上。在spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的pa...

2019-05-16 08:14:33 1068

原创 Mapreduce

MapreduceMapreduce1.mapreduce是什么分布式离线的计算框架,是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架,mapreduce的核心功能是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。hdfs–解决的是海量数据的存储问题。mapreduce—解决的是海量数据的计算以...

2019-03-27 09:34:12 263

原创 Mapreduce全流程(MR流程详解)

Mapreduce工作全流程mapreduce工作三大核心问题1.图示读数据到底是怎么回事?shuffle到底是什么?结果数据到底是怎么回事?mapreduce的工作流程1.读数据1.1对文件切片产生的问题的解决图示理解:当文件进行切片时,有可能会把单词且分开比如:hello切分为he和llo为了能够完整的,不出错的统计每一个单词的出现。有以下解决方案解...

2019-03-27 09:02:16 3482 2

原创 HDFS为什么不适合存储小文件?

不能高效的对大量的小数据进行存储(大量的小文件会很快沾满nameNode的内存空间)大量的小文件,也会影响NameNode的寻址时间1、小文件过多,会过多占用namenode的内存,并浪费block。- 文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的。HDFS的每个文件、目录、数据块占用150B,因此300...

2019-03-26 21:05:00 6228 1

原创 hadoop调度器

hadoop调度器概述Hadoop中常见的调度器有三种,分别为:FIFO调度器、公平调度器Fair Scheduler、容量调度器Capacity Scheduler(计算能力调度器)它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。基本作用和调度器考虑因素Hadoop调度器的基本作用就是根据节点资源...

2019-03-08 10:11:17 492

原创 JDBC简介及实现代码

JDBC一.相关概念1.什么是JDBC?JDBC(java data base connectivity,java数据库连接)是一种用于执行SQL语句的javaAPI,可以为多种关系型数据库提供统一访问,由JAVA类和接口组成2.数据库驱动应用程序也是不能直接使用数据库,通过相应的数据库驱动程序,对Connection等接口的实现类的jar文件二. 常用接口1. Driver接口装...

2019-03-08 09:19:32 489

原创 每天一道面试题(JAVA)

作用域public,private,protected,以及不写时的区别?答:区别如下:String 是最基本的数据类型吗? 【基础】答:不是。float 型float f=3.4是否正确? 【基础】答:不正确;精度不准确,应该用强制类型转换,如下所示:float f=(float)3.4 。或者使用 float f = 3.4f;语句float f=1.3;编译能否通过?【基础...

2019-03-08 09:03:42 408

原创 二分查找___代码

废话少说,看代码public static void main(String[] args) { //二分查找:有多个相同的值时只查出现的第一个,立刻停止查找 //查到了返回下标 //普通查找 int arr[]={1,2,3,4,5}; int index = Search(arr, 4); System.out.println(index);...

2019-03-07 16:31:45 699 1

原创 lambda表达式

lambda表达式java1.8引入了lambda表达式lambda 希腊字母的第11个(Λ,λ) λ粒子 音译读作:拉姆达lambda就是一个名字具体怎么用呢?lambda表达式与匿名内部类的关系首先复习:匿名内部类匿名内部类:必须基于抽象类或者是接口,其主要的目的是减少程序中类的定义范例:interface IMessage{ public void print(S...

2019-03-07 16:28:52 428

原创 算法---常用的几种JAVA排序代码

冒泡排序public static void bubbleSort(int[] arr) { for (int i = 0; i < arr.length - 1; i++) { for (int j = 0; j < arr.length - 1 - i; j++) { if (arr[j] &amp

2019-03-07 15:33:16 241

原创 每天一道面试题(JAVA部分)

面向对象的特征有哪些方面?1)抽象:抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。2)继承:继承是一种联结类的层次模型,并且允许和鼓励类的重用,它提供了一种明确表述共性的方法。对象的一个新类可以从现有的类中派生,这个过程称为类继承。新类继承了...

2019-03-07 11:06:55 397

原创 大数据JAVA基础第二节 数组

JAVA基础第二节JAVA小知识:JVM: JVM是Java Virtual Machine(Java虚拟机)Java语言编译程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以在多种平台上不加修改地运行JRE: JRE是Java Runtime Environment缩写,指Java运行环境,是Sun的产品。运行JAVA程序所必须的环境的集合,包含JVM标准实现及Java核心类...

2019-03-07 11:01:05 232

原创 大数据JAVA基础第一节 函数

JAVA基础第一节一. 函数对于函数有一个原则:单一功能原则,意思就是说:一个函数应该只完成一个功能,如果有多个功能,应该写多个函数.参数的分类:实参:实际的参数,变量内部有具体的值----函数调用处的是实参形参:形式上的参数,必须通过接受实参才有值.—函数定义处的是形参我们通过参数将数据传到函数内部的过程称为传参.注意点:1.实际在函数中参与运算的是形参2...

2019-03-07 10:12:14 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除