自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 多个join的执行过程

嵌套循环连接,就是先根据Join的类型和on条件进行逐层连接,每次连接完后用where对结果进行过滤。 在这个例子里,第一步只有A一个表,所以没有join的操作,直接对A用where a.id in (1,2,3,4,5,6)进行过滤,符合条件的记录作为主表,得到临时表t_A;第二步,t_A和B按照 A left join B b on a.bid = b.id 的规则来连接,对结果b.class...

2019-08-02 11:47:43 2157

原创 sqlldr命令:将文本格式数据导入到数据库

第一步:写一个 ctl格式的控制文件LOAD DATA -- 控制文件标识 CHARACTERSET 'UTF8' -- 格式统一utf8 INFILE '/u01/mbd/dy_channel.txt' -- 要导入的数据文件名(提前把这txt文...

2019-07-22 16:35:41 1341

原创 案例:数据从flume--kafka——spark streaming

编写一个SocketTest.java文件,用来模拟日志文件一条数据一条数据的生成SocketTest File ctoFile = new File(args[0]); //数据源 File dest=new File(args[1]); //目标文件 InputStreamReader rdCto = new InputStreamReader(new ...

2018-12-28 10:45:16 496

原创 Hadoop-使用mapreduce对数字进行排序

我写了三个类创建一个Mapper类import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop....

2018-12-15 17:46:46 2045 1

原创 Hadoop-InputFormat,FileInputFormat,TextInputFormat,LineRecordReader

InputFormat:    InputFormat描述了Map-Reduce作业的输入规范。    Map-Reduce框架依赖于作业的InputFormat:        1.验证job的输入规范。        2.将输入文件分解为逻辑inputsplit,每个inputsplit都被分配给一个单独的mapper。        3.提供RecordReader实现,用于从逻辑...

2018-12-13 22:09:30 599

原创 Hadoop-Mapper和Reducer的知识点集合

MapReduce主要分为两个过程:Map和ReduceMapper过程:Mapper<K1, V1, K2, V2 >Reducer过程:Reducer<K2, V2, K3, V3 >Mapper和Reducer的K2 V2需要保持一致:当Mapper输出格式与Reducer的输出格式一样时可以省略job.setOutputKeyClass()与job....

2018-12-10 21:37:38 1355

原创 Hadoop-写文件顺序,mapreduce基础,运行常见错误

    1.加载配置文件    2.获取文件系统    3.创建写入路径(Path)    4.创建输出流    5.写入输出流    6.关闭输出流mapreduce:填空式编程    MapReduce是一个分布式计算框架    分而治之-数据在哪计算在哪两个阶段    map(映射)阶段        reduce(规约或合并)阶段    MapReduce作业...

2018-12-08 18:48:45 417

原创 Hadoop-hdfs读写流程

HDFS写流程  写详细步骤:客户端向NameNode发出写文件请求。 检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。 (注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了,由于在真实写操作之前,操作就被写入EditLog中了,...

2018-12-06 19:16:51 1191

原创 Hadoop-搭建window下hadoop开发环境,查看hdfs上的文件,随机读取数据,写入数据,创建文件夹,获取文件状态

把jar包倒在eclipse安装路径的plugins.zip     解压放置到对应目录    重启eclipse    eclpise调整到map/reduce视图    配置hadoop安装目录        window-》preferences-》hadoop map/reduce ->选择路径-》apply    新建hadoop location        在ma...

2018-12-05 19:36:28 802

原创 Hadoop-机架感知,副本存放策略,网络带宽,数据磁盘故障,数据的完整性,文件删除和取消删除

机架感知:    检查两台是否在同一机架上    NameNode通过Hadoop Rack Awareness中概述的过程确定每个DataNode所属的机架ID 。    一个简单但非最优的策略是将复制品放在独特的机架上。这可以防止在整个机架发生故障时丢失数据,    并允许在读取数据时使用来自多个机架的带宽。此策略在群集中均匀分布副本,    这样可以轻松平衡组件故障的负载。但是,此...

2018-12-04 18:46:53 924

原创 Hadoop-hdfs的设计理念,block,namenode,datanode启动过程,心跳机制,安全模式

( hdfs的设计理念    硬件故障是常态而非例外。HDFS实例可能包含数百或数千台服务器计算机,        每台计算机都存储文件系统数据的一部分。事实上,存在大量组件并且每个        组件具有非平凡的故障概率意味着HDFS的某些组件始终不起作用。        因此,检测故障并从中快速自动恢复是HDFS的核心架构目标。            在HDFS上运行的应用程序需要...

2018-12-03 15:57:01 705

原创 Hadoop-基本模块,运行模式,配置文件,namenode,datanode,secondarynamenode作用

hadoop模块:    Hadoop Common:支持其他Hadoop模块的常用实用程序。    Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。    Hadoop YARN:作业调度和集群资源管理的框架。    Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。(一种计算框架)    Hadoop Oz...

2018-12-02 16:34:31 532

原创 数据库知识点集结

一、数据库的发展史   (1)手工管理:藏书阁,图书馆。            优点:分类管理,直观性强        缺点:信息流动慢,不方便   (2)文件管理:计算机文件系统,图书管理系统            优点:分类管理,层次分明        缺点: 查找不方便   (3)数据库管理:            优点:存取数据非常方便.        缺点:有数据的安全...

2018-09-12 22:55:54 273

原创 API-网络编程

网络编程:  java语言中,提供了一套统一的编程接口。很多细节都已经底层化。    所在,可以进行无痛的网络通信编程。   提供的是Socket套接字技术。常用的通信协议:(1)TCP/IP:在通信之前,需要建立连接,通信之后需要断开连接                      一般会有一个做为服务器端,有一个做为客户端           主要将通信模式分成四个层:      ...

2018-09-12 22:55:27 220

原创 API-线程进程

线程:还会涉及到一些名词概念:          程序,进程,线程,多进程,多线程 进程中所包含的一个或多个执行单元称为线程,一个线程就是进程中的一个顺序执行流。进程拥有一个私有的虚拟地址空间,该空间仅能被它所包含的线程访问。即同一个进程中的多个线程共享一块内存空间和一组系统资源。线程只能归属于一个进程并且它只能访问该进程所拥有的资源。线程本身也有一个供程序执行时的堆栈,在线程切换时,...

2018-09-12 22:55:03 598

原创 API-对象流,字符流,子类中转换流,缓冲流,文件字符流

对象流:    有的时候,我们可能需要将内存中的对象持久化到硬盘上,或者将    硬盘中的对象信息读到内存中,这个时候我们需要使用对象输入    输出流。         序列化: 是对象转换成一个字节序列的过程,是一个写操作  反序列化:   一个字节序列转换成对象的过程 ,是一个读操作  ObjectOutputStream          构造器:          ...

2018-08-24 22:56:21 175

原创 API-File类型,IO流,字节流,缓冲流,数据输出流

=============================================File类型   java.io.File类型,可以对硬盘上的文件以及目录,进行操作。      如查看文件/目录的属性信息,创建,删除文件/目录。此类型      不能查看和修改文件里的内容。常用构造器:    File(String pathname):            指定一个路径,...

2018-08-24 22:55:44 271

原创 API-Set接口,Map接口

Set接口:        特点1: 无序,存储的元素与添加顺序无关        特点2: 不可重复(使用元素的equals方法来判定是否重复)        特点3: 能存储null元素,只能存储一次。Hash算法机制Set集合在添加或查看元素时,当集合中的元素过多时,就是进行      多次的比较,效率变低。     在设计元素类型时,提供hash算法,用于返回对象的一个哈希值...

2018-08-24 22:55:12 1645

原创 API-集合,Collection,list,queue,泛型,list排序

(一)集合概念:       用于存储多个对象的单一对象(容器)。存储的数据叫元素。       元素都是引用类型。       用于存储多个对象的容器。Ps:容器内存储的都是对象的地址。(用于模拟现实生活中的存储容器,因此集合类型,不单单是一种。有很多类型,设计成各种存储的数据结构。这些类型统称为集合框架)    集合框架中包含多种接口,抽象类,实现类等,用此满足我们所需要的的用...

2018-08-24 22:52:00 283

原创 API-正则表达式,包装类,Date,SimpleDateFormat,Calendar

正则表达式:   (1)很多时候,我们都需要对一些字符进行匹配,查找,替换等复杂的            操作。我们可以通过"正则表达式"来帮助实现这些复杂操作。   (2)正则表达式, 它是一个有“特殊意义”的字符串,定义了一种"           校验规则"常用字符集  []:表示匹配括号内的一个字符  [abc]:表示匹配abc中的任意一个字符  [a-z]:表示匹配a-z...

2018-08-24 22:51:18 165

原创 API-异常,StringBuilder,String,常量池

API:应用程序编程接口,即jdk文档手册,里面以类的形式提供了    很多常用的功能。常用的包与类:    java.lang包:因为常用,所以不需要导包                                 字符串,线程    java.util包: 数组工具类,日期,集合等    java.net包:  网络相关的类型     java.io包:    输入输出类型...

2018-08-11 10:41:09 237

原创 抽象类,接口,多态,向上(下)转型,内部类

抽象类:   因为继承的关系,子类的功能可以越来越具体,相对来说,父类  更加一般化,通用化。因为父类封装了子类的共同行为,所以, 在定义时,我们可以定义方法的逻辑。有的时候,在父类中无法完成 子类的功能需求,此时,不如不写,即不写方法体,代码简单化。 但是此方法必须使用abstract修饰,那么此类型也必须使用abstract 修饰,即抽象类 1、抽象方法与抽象类  1)用ab...

2018-08-11 10:40:36 375

原创 Object类,导包,访问权限修饰词,修饰词final,static,单例模式

Object:是所有引用类型的顶级父类,            系统都会默认使引用类型extends Object.此类中提供了常用的方法:1:toString():           在Object中,返回的是类全名@HashCode值,            即对象的内存堆中的位置信息                 【类有类名和类全名之分:                 ...

2018-08-05 16:27:09 239

原创 继承,方法重写,父类变量引用子类对象

继承:java继承是定义一种的新的类型,从已有的类中吸收       成员变量和方法,新的类型可以添加新的方法和成员变量。      这种方式可以提高代码的复用性,缩短开发周期,      减少开发费用。      现实世界中:通过分析多种类型,然后发现有一些共同特征和共同行为                            再将这些种类,归纳为一种新类型            ...

2018-08-05 16:26:37 695

原创 方法,重载,构造方法,引用类型数组,this关键字

方法:   概念:类的共同行为,封装了一段逻辑代码,在封装方法时,尽可           能的只完成一项功能(避免将多个功能封装到一个方法内)   方法的使用:              方法属于对象的行为,应该使用:引用.方法,这些方法              动态绑定到对象上     方法签名:           方法名+形参列表=方法签名           形参列表:...

2018-08-05 13:02:52 198

原创 面向对象的概念,类对象变量内存管理机制,空指针,垃圾回收

----------面向对象概述:java编程语言是纯粹的面向对象思想的语言。现在程序开发有两个主流的方法:(1)结构化程序设计,也叫面向过程程序设计    结构化程序设计主张以功能/步骤来进行软件设计。    如在解决问题时,主要是思考的是解决问题的步骤思路:    围棋游戏:    1.游戏开始,2,黑棋执行,3,绘制图片,4,判断输赢,    5,白棋执行,6,绘制图片,7...

2018-08-05 12:39:30 171

原创 方法,eclipse的使用步骤

方法:即功能,封装了一段逻辑代码。方法的定义:     固定语法:     修饰词  返回值类型  方法名(形式参数){        逻辑代码     }方法的位置:     在类体中,与main方法是并列关系,类体中可以有     多个方法。修饰词:    (1)public--公共的        (2)protected--受保护的    (3)private...

2018-08-05 12:26:41 684

原创 数组

数组:1、概念:一组相同类型的数据的组合         数组也是一种引用类型,2、名称:数组名称不是固定的,与存放的数据的类型有关。         如:  存放一组int类型的数据,          数组名称   int[]                 存放一组字符串数据          数组名称   String[]          存放一组Scanner类型的...

2018-08-05 12:20:48 109

原创 分支和循环结构

程序的运行顺序:  顺序结构:从程序开始,到程序结束  分支结构:在顺序结构基础上,根据条件进行选择执行方向。  循环结构:在顺序结构基础上,根据条件进行多次执行相同的或相似的代码分支结构:根据条件的成立与否,选择执行方向。  (一)if分支结构:      语句1;      if(条件表达式){          代码块//条件成立时,执行的逻辑      }     ...

2018-08-05 12:07:17 1881

原创 运算符

运算符:    (1)算术运算符    (2)关系运算符    (3)逻辑运算符(短路运算符):  &&,||,!    (4)赋值运算符    (5)字符串拼接符:+    (6)三目运算符    条件表达式? 值1:值2    两原一封:    两个原则:    1、不同类型的数据做运算时,一定会先转换成较大范围类型后       再运算。    2、by...

2018-08-05 09:53:40 102

原创 JDK,变量,类型

jdk:java development kit-java开发工具包    --java开发工具    编译器,调试器,javadoc.exe. java.exe,javac.exe    --jre(java runtime environment)--java运行环境       --jvm(java虚拟机):            使用程序模拟一台计算机,使java程序运行在此jv...

2018-08-05 09:46:13 173

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除