自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 Java回顾day02面向对象

1.构造函数特点:(1)函数名与类名相同(2)不用定义返回值类型(3)不可以写return语句作用:对象一建立就会调用与之对应的构造函数,给对象进行初始化。而一般方法是对象调用才执行,给对象添加对象具备的功能。法官当场v宣布注意:(1)默认构造函数的特点(2)多个构造函数是以重载的形式存在的...

2020-09-28 16:14:40 166

原创 JAVA回顾day1

1.函数重载定义:一个类中,允许多个同名函数,但彼此之间的参数个数和参数类型要不同2.Java开发(1)找对象(2)创建对象(3)使用对象和维护对象之间的关系3.类和对象的关系类:对现实生活中事物的描述对象:就是这类事物中存在的个体4.匿名对象(1)没有名字的对象,调用属性没意义,当方法只调用一次,能起到简化代码的作用(2)可以作为实际的参数传递5.封装1.概念:是指隐藏对象的属性和实现细节,仅对外提供公共访问方式。好处:(1)将变化隔离(2)

2020-09-02 12:28:32 216

原创 Initialization of all the collectors failed. Error in last collector was :null

错误日志:3129701014_0001_m_000000_3: Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was :null at org.apache.hadoop.mapred.MapTask.createSortingColle...

2019-11-07 21:16:35 937

原创 linux 下MySQL设置中文

编译部署的MySQL别去动那些my.cnf的配置文件(1)新建表的时候加 character set = utf8;例如:CREATE TABLE `Student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAU...

2019-10-30 16:24:17 468 1

原创 JAVA 03

1.Java基本数据类型(1)主要分为俩大类:基本数据类型和引用数据类型。(2)基本数据类型:3大类 8小类 1)数值型:1)整数类型(byte 1 short 2 int 4 long 4) 2)浮点类型(fl...

2019-05-04 15:21:38 117

原创 Java 02

1.Java编程的了解(1)区分大小写,要注意。(2)public ,它是一个关键字,叫访问修饰符,用于控制其他程序对我们这个程序的访问级别。(3)class,它是一个类,所有代码都必须在类里面。(4)一个源文件只要能有一个public 类。可以有多个class类。(5)main方法是Java程序的入口方法,书写格式固定。public static void main(St...

2019-05-03 18:24:54 213

原创 Java 01-初识JAVA

1.Java的优势(1)跨平台和可移植性好:例如C++的int类型由于编译器厂商的规范不同, 有时候16位,有时候32位。但Java永远都是32位。(2)安全性高:使用于网络/分布式环境(3)简单性(4)多线程(5)健壮性2.Java的运行图解首先将Java文件,通过编译器编译为字节码文件(.class文件),再通过类装载器,装载需要的类,在通过字节码校验(为了...

2019-04-29 15:43:11 122

原创 Hadoop之HDFS读写流程04

1.HDFS基本概念(1)数据块(block):HDFS存储文件时块(block)为单位,一个数据块默认为64MB,每个数据块会存在多个副本在不同的DataNode上,默认是三份,这里是有个小文件问题如何解决?(2)NameNode:负责管理文件目录、文件和block的关系、block和DataNode的关系。(3)DataNode:负责存储数据,上面有数据和数据的meta信息,大部分...

2019-04-06 15:02:04 215

原创 Hadoop常用命令03

1.命令格式有俩种hadoop fs -commandhdfs dfs -command 2.常规命令注:大部分命令和linux相同,所以挑点特殊的(1)在Hadoop上指定目录创建一个文件夹hdfs dfs -touchz /xx/xxx.txt(2)将本机文件传到Hadoop上去hadoop fs -put /本地文件 /hadoop目录(3)将Had...

2019-04-05 19:00:30 154

原创 Hadoop01伪分布式部署

1.hadoop部署单机部署 进程没有伪分布式部署 进程存在+1节点 开发集群部署 进程存在+n节点 开发/生产下载的包: src 源代码包里面不包含jar 小 不带src或者带bin 编译好的组件 大1.1解压tar -xzvf hadoop-2.8.1.tar.gzchown -R root:root hadoop...

2019-04-04 21:15:42 107

原创 Linux常用命令

1.cd命令作用:切换目录cd .. 返回上级目录cd - 返回上次目录2.ls命令作用:查看文件与目录ls -a 列出所有文件或目录ls -l 列出文件目录的权限或属性等数据ll -h 列出文件大小以kb,GB等展示出来ll -d 列出文件自己的目录,显示自身目录的ll -R 列出目录下包括其子目录下的所有文件可组合使用,例如:...

2019-04-04 16:47:23 903

原创 Hadoop基本了解和编译02

1.什么是Hadoop宏观: Hadoop为主的生态圈 hadoop flume kafka........狭义: Hadoop组件(一个有存储,计算,调度的软件) 官网:http://hadoop.apache.org/2.Hadoop(存储+计算+资源和作业调度)hadoop1.x HDFS 存储 MapReduce 计算+资源和作业调度h...

2019-04-03 16:01:09 144

原创 OnlineLogAnalysisScala

1.部分代码展示import java.sql.Timestampimport java.utilimport java.util.regex.Patternimport Streamning03.{InfluxDBUtils, ScalaBroadcastAlert, ScalaCDHRoleLog}import org.apache.kafka.common.serializ...

2019-03-04 09:51:37 136

原创 Hive入门(4)

1.函数补充(1)explode :将数组变成一列列的(2)需求举例:求一个WCTime taken: 1.071 secondshive> load data local inpath '/home/hadoop/data/hive_wc.txt' into table hive_wc;Loading data to table default.hive_wcTable...

2019-01-01 10:12:29 187

原创 2018年底终结

1.2018年概述    上半年最重要的事估计就是接触了数字货币和大数据了,想想投资数字货币也是逗,真是初生牛犊不怕虎,赚了七八千尝到甜头就忘乎所以了,哈哈,结果一波连老本都赔进去了。不过还好,了解到了一些关于数字货币的知识。最重要的是要学会不要贪心!!     大数据算是最有收获的了,认识了一些大佬和爱学习的同学,入门了关于大数据方面的知识。大一大二的时候,感觉学习些大物,高数等等有什么...

2018-12-31 22:09:14 205

原创 SparkStreaming管理Offset保证零数据丢失

package com.ruozedata.spark.streaming.day04import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimpo...

2018-12-30 09:39:54 464

原创 Hive入门(3)

1.DML补充(1)查询出不包含xx的数据select * from emp where ename not in ('SCOTT');//查询不包含ename等于SCOTT的所有行(2)查询出指定的某行 select * from emp where ename in ('SCOTT','ss');查询返回ename = SCOTT 和 ss的行 (3)查询某...

2018-12-29 08:54:42 129

原创 Hive入门(2)

1.Hive DDL1.1 database DDL(1) 创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name //生产中if not exists都带上  [COMMENT database_comment]  //可以增加注释  [LOCATION hdfs_path]  //存的路径不写默认的就是/use...

2018-12-25 22:03:26 122

原创 Hive入门(1)

1.产生背景(1)MapReduce编程十分复杂。(2)传统的RDBMS能满足一般的需求,但是不能处理大数据,需要一个SQL就能处理大数据的。(3)这时结合前俩个缺点改进,就有了Hive(4)提高Hive要想到:SQL on Hadoop(在Hadoop上用SQL来操作)2.Hive基本概念(1)Hive的作用:Apache蜂巢™数据仓库软件便于读,写,和管理大型数据集居住...

2018-12-24 15:28:08 137

原创 Kafka入门(1)

1.Kafka基本了解(1)他是一个消息中间件,又叫分布式流平台,类似的还有MQ(消息队列),Redis等(2)Kafka:下面是三个进程                                                          Flume:下面三者一个进程生产者                                                ...

2018-12-22 16:22:41 120

原创 SparkStreaming03

1.上节课回顾昨天讲了basic source(基础数据源),例如:file system,socket connection等。还有一个比较重要的是Connetcion poll这个记者去找代码,试一试!!2.Flume(1)Flume的作用:Apache Flume is a distributed, reliable, and available service for effi...

2018-12-18 20:06:36 128

原创 MVN明明添加了依赖确还是报找不到

昨天做spark和flume对接的时候,特么的一直报找不到啥log4j,slf4j-NOP bind啥的或者版本不兼容啥的,一查说少依赖了,于是到mvnrepository去找到了,添加了上去,结果还是一直报找不到啊,加载失败啊最后才发现原来特么的是因为这scope(范围)自带的参数不对,test这东西默认是不加载到运行项目里的,吐血Maven的一个哲学是惯例优于配置(Conventi...

2018-12-16 08:16:31 3139 1

原创 SparkStreaming02

1.transformation(1)作用:用于DStream和RDD之间交互。package SparkReview.Streaming02import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import scala.collection.m...

2018-12-12 18:34:14 367

原创 SparkStreaing01

1.作用及其概念(1)概念:是基于spark(RDD)之上流处理作用:makes it easy to build scalable fault-tolerant streaming applications(使构建可伸缩的容错流应用程序变得容易)流:source==>compute==>store(存储)   离线是特殊的流,一个批次一个批次的,断流。(2)spark...

2018-12-03 21:19:32 158

原创 SparkSQL(4)

上街课程回顾:上节课主要讲了外部数据源,它的好出事可以加载不同文件系统上的,不同格式的数据(text不行,因为这个数据没有schema),以及外部数据源那几个关系的调用(熟练掌握这个,主要是为了实现自己定义修改数据源,这个可以尝试尝试的)1.如何自定义外部数据源实现可插拔的方式?2.PvUv(1)Pv:url被用户访问的次数(2)Uv:url被不同用户访问的次数(多了一次去重)...

2018-12-03 12:15:58 274 1

原创 Spark面试题(3)

1.Spark中如何划分Stage?答:谈到Spark中如何划分Stage,就不得不讲讲Spark中的宽依赖和窄依赖了                       宽依赖(图右):父RDD的每个partition会被子RDD的多个partition使用(多对一,涉及到shuffle的那些算子)窄依赖(图左):父RDD的每个partition只会被子RDD的一个partition...

2018-11-28 19:58:05 143

原创 Spark面试题(2)

面试题1:Spark中谈谈你对RDD的理解?(1)RDD:Resilient Distributed Datasets(弹性分布式数据集),首先说说RDD的作用,它的出现大大降低了开发分布式应用程序的门槛,比如在其他框架开发分布式应用程序,你需要考虑数据的拆分,数据的隔离,节点之间的通信机制,job的调度,序列化等等。其次,RDD他是一个基础的抽象类,是不可变的,可拆分的,可并行操作的数据集合...

2018-11-28 16:04:27 723

原创 SparkSQL03

1.回顾前面的内容DF是个数据集,是按列处理的,是关系数据表里面的一张表RDD转成DF,加载数据进来就是RDD,第一种case class 通过反射的机制来拿到外面的DF,第二种通过是手工编程的方式,structType  好处是可以指定字段的类型,坏处是有点麻烦。structField这里面装的是列的名,列的数据类型,是否为空,SQL2的内容一定要熟练到脱口而出。2.External...

2018-11-13 14:40:45 119

原创 RDD和DataFrame的区别

1.RDD在创建之后,你知道有这个类,但是你不知道他的内部结构的,DataFrame是以列式存储,它有schema是可以知道的。2.DataRrame比RDD的执行效率要高一点,因为在大数据的处理中,RDD即使用mappartition或者foreachRDD都要消耗不少的core,但是DataFrame他可以进行sql操作,先过滤掉一部分数据,在RDD中是不好实现的。3.SpakSQL在...

2018-11-10 19:43:04 2388

原创 SparkSQL(1)

上节课回顾(1)kafka的基本架构和核心概念?(2)kafka为什么快?(3)为什么kafka的吞吐量比较高?(4)同一个消息能否被多个消费组消费?(5)不同的组对topic消费,offset概念1.基本概念(1)定义:Spark SQL is a Spark module for structured data processing.(它是结构化数据处理的spark...

2018-11-04 22:26:56 137

原创 SparkCore(4)调优

概述:Spark的调优主要有三个方面 1.Data Serialization  ****(1)Java serialization:默认情况下,Spark使用Java的ObjectOutputStream框架序列化对象,并且可以使用您创建的任何实现Java .io. serializable类。还可以通过扩展java.io.Externalizable更紧密地控制序列化的性能。Jav...

2018-11-02 20:55:55 142

原创 SparkCore(4)

上节课回顾:(1)Spark on YARN 是不需要启动spark的任何东西的,找台机器布一下Spark就好提交作业。(2)Spark on YARN的俩种模式的区别。取决于Driver跑在哪里,跑在client就local模式,跑在AM就是yarn(3)Spark shell不能是cluster模式,当他使用cluster模式,是不是代表了Driver在cluster集群里面,那他...

2018-11-02 16:09:34 117

原创 Compress的选择(1)

先丢在这儿:首先排除要不要压缩的问题.不压缩的不考虑个人理解觉得选择标准有两个1.首先目标文件大还是小.小文件一律快压,分不分片是大文件考虑的问题2.其次就是业务场景上看.老生常谈的问题:  首先需不需要随机读,如果需要就是lzo补索引,原则上不考虑bzip2,其次就是压缩时间,CPU能力和压缩比的权衡.这里个人是倾向是只要不是对磁盘对压缩比有绝对要求,否则一律snappy或者lz4选...

2018-11-02 16:03:48 572

原创 Spark面试题(1)

面试题1:描述一下Spark 在yarn上的工作原理?答:客户端要提交一个yarn的作业,首先要通过Resource manager去分配一个container给node mananger,用来跑application master,然后application master到resource manager申请所需要的资源,ApplicationMaster通知NodeManager在...

2018-10-30 20:47:50 172

原创 面试题:集群升级的问题

考察一个面试题:zk集群如何升级版本 好文章:http://blog.sina.com.cn/s/blog_bdfcb3410102wmh2.html同理:HDFS如何升级版本同理:yarn如何升级版本 答:小版本的升级和大版本的升级小版本的升级:比如zk,先关闭一个节点,然后替换软连接,在启动服务,反正主备切换着来,就依赖ZK和HDFS的副本特性.使用新版本安装...

2018-10-30 15:25:25 285

原创 SparkCore(3)

   1.Spark on YARN  (Client模式)(1)概述:将Spark作业提交到yarn上去执行,Spark仅仅作为一个客户端。(2)回顾yran的架构阐述:客户端要提交一个yarn的作业,首先要通过Resource manager去申请一个container在node mananger上,用来跑application master,然后applicati...

2018-10-29 21:24:26 154

转载 Hadoop常用配置文件

写得很详细的一篇好文章http://www.cnblogs.com/yinghun/p/6230436.html 

2018-10-27 19:50:08 245

原创 SparkCore2

1.Glossary(1)Application(应用,创建了一个SparkContext就是一个Application)=1个Driver  program +  n 个executors(2)Application jar:表示就是Application的主类。(3)Driver progrem:就是你的main方法并且创建了SparkContext。这是一个进程(4)Clus...

2018-10-27 15:59:03 194

原创 SparkCore1

1.RDD的五大特性?(1)A list of partition:他是RDD的基本构成,就是一系列分区。(2)A function for computing each split/partitio:一个计算方法是作用在每个分区上面的。(3)A list of dependencies on other RDDs:RDD会记录它的依赖 ,为了容错(重算,cache,checkpoin...

2018-10-24 20:20:54 111

原创 Spark:Task not serializable

package HomeWork.Core_logAnalyimport org.apache.spark.{SparkConf, SparkContext}/*** * User:yunfei * Date:22/10/23 * Description: * 日志文件格式: * 域名 流量 资源 ip 访问时间 * * www.zhibo8.com 304...

2018-10-24 20:20:01 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除