Mr云飞-CSDN博客

原创 Java回顾day02面向对象

1.构造函数特点：（1）函数名与类名相同（2）不用定义返回值类型（3）不可以写return语句作用：对象一建立就会调用与之对应的构造函数，给对象进行初始化。而一般方法是对象调用才执行，给对象添加对象具备的功能。法官当场v宣布注意：（1）默认构造函数的特点（2）多个构造函数是以重载的形式存在的...

2020-09-28 16:14:40 166

1.函数重载定义：一个类中，允许多个同名函数，但彼此之间的参数个数和参数类型要不同2.Java开发（1）找对象（2）创建对象（3）使用对象和维护对象之间的关系3.类和对象的关系类：对现实生活中事物的描述对象：就是这类事物中存在的个体4.匿名对象（1）没有名字的对象，调用属性没意义，当方法只调用一次，能起到简化代码的作用（2）可以作为实际的参数传递5.封装1.概念：是指隐藏对象的属性和实现细节，仅对外提供公共访问方式。好处：（1）将变化隔离（2）

2020-09-02 12:28:32 217

原创 Initialization of all the collectors failed. Error in last collector was :null

错误日志：3129701014_0001_m_000000_3: Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was :null at org.apache.hadoop.mapred.MapTask.createSortingColle...

2019-11-07 21:16:35 937

原创 linux 下MySQL设置中文

编译部署的MySQL别去动那些my.cnf的配置文件（1）新建表的时候加 character set = utf8;例如:CREATE TABLE `Student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAU...

2019-10-30 16:24:17 469 1

原创 JAVA 03

1.Java基本数据类型（1）主要分为俩大类：基本数据类型和引用数据类型。（2）基本数据类型：3大类 8小类 1）数值型：1）整数类型（byte 1 short 2 int 4 long 4) 2)浮点类型（fl...

2019-05-04 15:21:38 118

原创 Java 02

1.Java编程的了解（1）区分大小写，要注意。（2）public ，它是一个关键字，叫访问修饰符，用于控制其他程序对我们这个程序的访问级别。（3）class，它是一个类，所有代码都必须在类里面。（4）一个源文件只要能有一个public 类。可以有多个class类。（5）main方法是Java程序的入口方法，书写格式固定。public static void main(St...

2019-05-03 18:24:54 213

原创 Java 01-初识JAVA

1.Java的优势（1）跨平台和可移植性好：例如C++的int类型由于编译器厂商的规范不同，有时候16位，有时候32位。但Java永远都是32位。（2）安全性高：使用于网络/分布式环境（3）简单性（4）多线程（5）健壮性2.Java的运行图解首先将Java文件，通过编译器编译为字节码文件（.class文件）,再通过类装载器，装载需要的类，在通过字节码校验（为了...

2019-04-29 15:43:11 123

原创 Hadoop之HDFS读写流程04

1.HDFS基本概念（1）数据块（block）：HDFS存储文件时块(block)为单位，一个数据块默认为64MB，每个数据块会存在多个副本在不同的DataNode上，默认是三份，这里是有个小文件问题如何解决？（2）NameNode：负责管理文件目录、文件和block的关系、block和DataNode的关系。（3）DataNode：负责存储数据，上面有数据和数据的meta信息，大部分...

2019-04-06 15:02:04 216

原创 Hadoop常用命令03

1.命令格式有俩种hadoop fs -commandhdfs dfs -command 2.常规命令注：大部分命令和linux相同，所以挑点特殊的（1）在Hadoop上指定目录创建一个文件夹hdfs dfs -touchz /xx/xxx.txt（2）将本机文件传到Hadoop上去hadoop fs -put /本地文件 /hadoop目录（3）将Had...

2019-04-05 19:00:30 154

原创 Hadoop01伪分布式部署

1.hadoop部署单机部署进程没有伪分布式部署进程存在+1节点开发集群部署进程存在+n节点开发/生产下载的包: src 源代码包里面不包含jar 小不带src或者带bin 编译好的组件大1.1解压tar -xzvf hadoop-2.8.1.tar.gzchown -R root:root hadoop...

2019-04-04 21:15:42 107

原创 Linux常用命令

1.cd命令作用：切换目录cd .. 返回上级目录cd - 返回上次目录2.ls命令作用：查看文件与目录ls -a 列出所有文件或目录ls -l 列出文件目录的权限或属性等数据ll -h 列出文件大小以kb，GB等展示出来ll -d 列出文件自己的目录，显示自身目录的ll -R 列出目录下包括其子目录下的所有文件可组合使用，例如:...

2019-04-04 16:47:23 905

原创 Hadoop基本了解和编译02

1.什么是Hadoop宏观: Hadoop为主的生态圈 hadoop flume kafka........狭义: Hadoop组件（一个有存储，计算，调度的软件）官网：http://hadoop.apache.org/2.Hadoop(存储+计算+资源和作业调度)hadoop1.x HDFS 存储 MapReduce 计算+资源和作业调度h...

2019-04-03 16:01:09 145

原创 OnlineLogAnalysisScala

1.部分代码展示import java.sql.Timestampimport java.utilimport java.util.regex.Patternimport Streamning03.{InfluxDBUtils, ScalaBroadcastAlert, ScalaCDHRoleLog}import org.apache.kafka.common.serializ...

2019-03-04 09:51:37 136

原创 Hive入门（4）

1.函数补充（1）explode ：将数组变成一列列的（2）需求举例：求一个WCTime taken: 1.071 secondshive> load data local inpath '/home/hadoop/data/hive_wc.txt' into table hive_wc;Loading data to table default.hive_wcTable...

2019-01-01 10:12:29 188

原创 2018年底终结

1.2018年概述上半年最重要的事估计就是接触了数字货币和大数据了，想想投资数字货币也是逗，真是初生牛犊不怕虎，赚了七八千尝到甜头就忘乎所以了，哈哈，结果一波连老本都赔进去了。不过还好，了解到了一些关于数字货币的知识。最重要的是要学会不要贪心！！大数据算是最有收获的了，认识了一些大佬和爱学习的同学，入门了关于大数据方面的知识。大一大二的时候，感觉学习些大物，高数等等有什么...

2018-12-31 22:09:14 205

原创 SparkStreaming管理Offset保证零数据丢失

package com.ruozedata.spark.streaming.day04import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimpo...

2018-12-30 09:39:54 465

原创 Hive入门（3）

1.DML补充(1)查询出不包含xx的数据select * from emp where ename not in ('SCOTT');//查询不包含ename等于SCOTT的所有行（2）查询出指定的某行 select * from emp where ename in ('SCOTT','ss');查询返回ename = SCOTT 和 ss的行（3）查询某...

2018-12-29 08:54:42 129

原创 Hive入门（2）

1.Hive DDL1.1 database DDL（1）创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name //生产中if not exists都带上 [COMMENT database_comment] //可以增加注释 [LOCATION hdfs_path] //存的路径不写默认的就是/use...

2018-12-25 22:03:26 123

原创 Hive入门（1）

1.产生背景（1）MapReduce编程十分复杂。（2）传统的RDBMS能满足一般的需求，但是不能处理大数据，需要一个SQL就能处理大数据的。（3）这时结合前俩个缺点改进，就有了Hive（4）提高Hive要想到：SQL on Hadoop（在Hadoop上用SQL来操作）2.Hive基本概念（1）Hive的作用：Apache蜂巢™数据仓库软件便于读,写,和管理大型数据集居住...

2018-12-24 15:28:08 137

原创 Kafka入门（1）

1.Kafka基本了解（1）他是一个消息中间件，又叫分布式流平台，类似的还有MQ（消息队列），Redis等（2）Kafka：下面是三个进程 Flume：下面三者一个进程生产者 ...

2018-12-22 16:22:41 120

原创 SparkStreaming03

1.上节课回顾昨天讲了basic source（基础数据源），例如：file system，socket connection等。还有一个比较重要的是Connetcion poll这个记者去找代码，试一试！！2.Flume（1）Flume的作用：Apache Flume is a distributed, reliable, and available service for effi...

2018-12-18 20:06:36 129

原创 MVN明明添加了依赖确还是报找不到

昨天做spark和flume对接的时候，特么的一直报找不到啥log4j，slf4j-NOP bind啥的或者版本不兼容啥的，一查说少依赖了，于是到mvnrepository去找到了，添加了上去，结果还是一直报找不到啊，加载失败啊最后才发现原来特么的是因为这scope（范围）自带的参数不对，test这东西默认是不加载到运行项目里的，吐血Maven的一个哲学是惯例优于配置(Conventi...

2018-12-16 08:16:31 3139 1

原创 SparkStreaming02

1.transformation（1）作用:用于DStream和RDD之间交互。package SparkReview.Streaming02import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import scala.collection.m...

2018-12-12 18:34:14 367

原创 SparkStreaing01

1.作用及其概念（1）概念：是基于spark（RDD）之上流处理作用：makes it easy to build scalable fault-tolerant streaming applications（使构建可伸缩的容错流应用程序变得容易）流：source==>compute==>store（存储）离线是特殊的流，一个批次一个批次的，断流。（2）spark...

2018-12-03 21:19:32 160

原创 SparkSQL（4）

上街课程回顾：上节课主要讲了外部数据源，它的好出事可以加载不同文件系统上的，不同格式的数据（text不行，因为这个数据没有schema），以及外部数据源那几个关系的调用（熟练掌握这个，主要是为了实现自己定义修改数据源，这个可以尝试尝试的）1.如何自定义外部数据源实现可插拔的方式？2.PvUv（1）Pv：url被用户访问的次数（2）Uv：url被不同用户访问的次数（多了一次去重）...

2018-12-03 12:15:58 276 1

原创 Spark面试题（3）

1.Spark中如何划分Stage？答：谈到Spark中如何划分Stage，就不得不讲讲Spark中的宽依赖和窄依赖了宽依赖（图右）：父RDD的每个partition会被子RDD的多个partition使用（多对一，涉及到shuffle的那些算子）窄依赖（图左）：父RDD的每个partition只会被子RDD的一个partition...

2018-11-28 19:58:05 143

原创 Spark面试题（2）

面试题1：Spark中谈谈你对RDD的理解？（1）RDD：Resilient Distributed Datasets（弹性分布式数据集），首先说说RDD的作用，它的出现大大降低了开发分布式应用程序的门槛，比如在其他框架开发分布式应用程序，你需要考虑数据的拆分，数据的隔离，节点之间的通信机制，job的调度，序列化等等。其次，RDD他是一个基础的抽象类，是不可变的，可拆分的，可并行操作的数据集合...

2018-11-28 16:04:27 724

原创 SparkSQL03

1.回顾前面的内容DF是个数据集，是按列处理的，是关系数据表里面的一张表RDD转成DF，加载数据进来就是RDD，第一种case class 通过反射的机制来拿到外面的DF，第二种通过是手工编程的方式，structType 好处是可以指定字段的类型，坏处是有点麻烦。structField这里面装的是列的名，列的数据类型，是否为空，SQL2的内容一定要熟练到脱口而出。2.External...

2018-11-13 14:40:45 119

原创 RDD和DataFrame的区别

1.RDD在创建之后，你知道有这个类，但是你不知道他的内部结构的，DataFrame是以列式存储，它有schema是可以知道的。2.DataRrame比RDD的执行效率要高一点，因为在大数据的处理中，RDD即使用mappartition或者foreachRDD都要消耗不少的core，但是DataFrame他可以进行sql操作，先过滤掉一部分数据，在RDD中是不好实现的。3.SpakSQL在...

2018-11-10 19:43:04 2388

原创 SparkSQL（1）

上节课回顾（1）kafka的基本架构和核心概念？（2）kafka为什么快？（3）为什么kafka的吞吐量比较高?（4）同一个消息能否被多个消费组消费？（5）不同的组对topic消费，offset概念1.基本概念（1）定义：Spark SQL is a Spark module for structured data processing.（它是结构化数据处理的spark...

2018-11-04 22:26:56 137

原创 SparkCore（4）调优

概述：Spark的调优主要有三个方面 1.Data Serialization ****（1）Java serialization：默认情况下，Spark使用Java的ObjectOutputStream框架序列化对象，并且可以使用您创建的任何实现Java .io. serializable类。还可以通过扩展java.io.Externalizable更紧密地控制序列化的性能。Jav...

2018-11-02 20:55:55 144

原创 SparkCore（4）

上节课回顾：（1）Spark on YARN 是不需要启动spark的任何东西的，找台机器布一下Spark就好提交作业。（2）Spark on YARN的俩种模式的区别。取决于Driver跑在哪里，跑在client就local模式，跑在AM就是yarn（3）Spark shell不能是cluster模式，当他使用cluster模式，是不是代表了Driver在cluster集群里面，那他...

2018-11-02 16:09:34 117

原创 Compress的选择（1）

先丢在这儿：首先排除要不要压缩的问题.不压缩的不考虑个人理解觉得选择标准有两个1.首先目标文件大还是小.小文件一律快压,分不分片是大文件考虑的问题2.其次就是业务场景上看.老生常谈的问题: 首先需不需要随机读,如果需要就是lzo补索引,原则上不考虑bzip2,其次就是压缩时间,CPU能力和压缩比的权衡.这里个人是倾向是只要不是对磁盘对压缩比有绝对要求,否则一律snappy或者lz4选...

2018-11-02 16:03:48 577

原创 Spark面试题（1）

面试题1：描述一下Spark 在yarn上的工作原理？答：客户端要提交一个yarn的作业，首先要通过Resource manager去分配一个container给node mananger，用来跑application master，然后application master到resource manager申请所需要的资源，ApplicationMaster通知NodeManager在...

2018-10-30 20:47:50 172

原创面试题：集群升级的问题

考察一个面试题：zk集群如何升级版本好文章：http://blog.sina.com.cn/s/blog_bdfcb3410102wmh2.html同理：HDFS如何升级版本同理：yarn如何升级版本答：小版本的升级和大版本的升级小版本的升级：比如zk，先关闭一个节点，然后替换软连接，在启动服务，反正主备切换着来，就依赖ZK和HDFS的副本特性.使用新版本安装...

2018-10-30 15:25:25 285

原创 SparkCore（3）

1.Spark on YARN （Client模式）（1）概述：将Spark作业提交到yarn上去执行，Spark仅仅作为一个客户端。（2）回顾yran的架构阐述：客户端要提交一个yarn的作业，首先要通过Resource manager去申请一个container在node mananger上，用来跑application master，然后applicati...

2018-10-29 21:24:26 156

转载 Hadoop常用配置文件

写得很详细的一篇好文章http://www.cnblogs.com/yinghun/p/6230436.html

2018-10-27 19:50:08 245

原创 SparkCore2

1.Glossary（1）Application（应用，创建了一个SparkContext就是一个Application）=1个Driver program + n 个executors（2）Application jar：表示就是Application的主类。（3）Driver progrem：就是你的main方法并且创建了SparkContext。这是一个进程（4）Clus...

2018-10-27 15:59:03 194

原创 SparkCore1

1.RDD的五大特性？（1）A list of partition：他是RDD的基本构成，就是一系列分区。（2）A function for computing each split/partitio：一个计算方法是作用在每个分区上面的。（3）A list of dependencies on other RDDs：RDD会记录它的依赖，为了容错（重算，cache，checkpoin...

2018-10-24 20:20:54 112

原创 Spark:Task not serializable

package HomeWork.Core_logAnalyimport org.apache.spark.{SparkConf, SparkContext}/*** * User:yunfei * Date:22/10/23 * Description: * 日志文件格式： * 域名流量资源 ip 访问时间 * * www.zhibo8.com 304...

2018-10-24 20:20:01 302

空空如也

空空如也