自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

克里斯的博客

把学习当作一生的事情

  • 博客(64)
  • 收藏
  • 关注

原创 【Scala】集合高级计算——过滤、map、扁平化、分组、reduce、折叠

1)过滤遍历一个集合并从中获取满足指定条件的元素组成一个新的集合(2)转化/映射(map)将集合中的每一个元素映射到某一个函数(3)扁平化(4)扁平化+映射 注:flatMap 相当于先进行 map 操作,在进行 flatten 操作集合中的每个元素的子元素映射到某个函数并返回新集合(5)分组(group)按照指定的规则对集合的元素进行分组(6)简化(归约)(7)折叠

2022-01-19 19:03:59 554

原创 【Scala】集合总结(二)——Array、List、Set、Map、Tuple的增、删、改

一、Scala集合简介(1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 特质。(2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包:不可变集合:scala.collection.immutable 可变集合: scala.collection.mutable (3)Scala 不可变集合,就是指该集合对象不可修改,每次修改就会返回一个新对象,而不会对原对象进行修改。类似于 ja.

2022-01-19 17:08:42 730

原创 【Scala】集合总结(一)——Array、List、Set、Map、Tuple的创建、访问、遍历方法

一、Scala集合简介(1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 特质。(2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两 个包:不可变集合:scala.collection.immutable 可变集合: scala.collection.mutable (3)Scala 不可变集合,就是指该集合对象不可修改,每次修改就会返回一个新对象,而 不会对原对象进行修改。类

2022-01-19 16:21:17 1085

原创 【Scala】伴生类与伴生对象

Scala语言是完全面向对象的语言,所以并没有静态的操作(即在Scala中没有静态的概念)但是为了能够和Java语言交互(因为Java中有静态概念),就产生了一种特殊的对象 来模拟类对象,该对象为单例对象。若单例对象名与类名一致,则称该单例对象这个类的伴 生对象,这个类的所有“静态”内容都可以放置在它的伴生对象中声明。一、语法分析//(1)伴生对象object Person { var country: String = "China"}//(...

2022-01-19 15:16:02 437

原创 【Scala】总结匿名函数

定义没有名字的函数就是匿名函数。 (x:Int)=>{函数体} x:表示输入参数类型;Int:表示输入参数类型;函数体:表示具体代码逻辑 匿名函数至简原则(1)参数的类型可以省略,会根据形参进行自动的推导(2)类型省略之后,发现只有一个参数,则圆括号可以省略;其他情况:没有参数和参数超过 1 的永远不能省略圆括号。(3)匿名函数如果只有一行,则大括号也可以省略(4)如果参数只出现一次,则参数省略且后面参数可以用_代替情况分析1、传递的函数..

2022-01-19 14:46:13 403

原创 【Scala】函数至简原则、高阶函数

一、函数至简原则(1)return 可以省略,Scala 会使用函数体的最后一行代码作为返回值 def f1( s : String ): String = { s + " chris "}(2)如果函数体只有一行代码,可以省略花括号 def f2(s:String):String = s + " Chris "(3)返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略) def f3( s : String ) = s + " chris "(

2022-01-19 14:29:58 508

原创 【HBase】HBase优化——高可用

配置HBase的高可用以及一些其他的测试

2022-01-13 10:58:34 1198 2

原创 【HBase】自定义 Hbase-MapReduce2

目标将 fruit 表中的一部分数据(name列),通过 MR 迁入到 fruit2表中。 分步实现1.构建 Fruit2Mapper 类,用于读取 fruit 表中的数据package com.chris.hbase.mr2;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.client.Put;import.

2022-01-12 16:48:55 549

原创 【HBase】自定义 HBase-MapReduce1

目标将 fruit 表中的一部分数据,通过 MR 迁入到 fruit_mr 表中。分步实现1.构建 FruitMapper 类,用于读取 fruit 表中的数据package com.chris.hbase.mr1;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.i

2022-01-12 15:50:08 733

原创 【HBase】HBaseAPI代码

根据HBase的shell命令进行API代码的编写,主要分为:DDL语言和DML语言。

2022-01-12 12:05:17 346

原创 【排障】log4j:WARN No appenders could be found for logger

log4j:WARN No appenders could be found for loggerlog4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

2022-01-11 16:26:00 427

原创 【HBase】TimeStamp的作用

HBase是非关系型数据库,它的逻辑结构、物理结构和架构都与关系型数据库不同。像MySQL这样的关系型数据库在对数据进行增删改查的时候,直接对数据进行操作,而HBase则利用TimeStamp覆盖原来的操作,向用户呈现最新TimeStamp的操作内容。

2022-01-11 10:28:41 3139 2

原创 【HBase总结】HBase的逻辑结构、物理结构和基本架构

概述HBase的定义、逻辑结构、物理结构和架构

2022-01-11 08:22:30 2961 1

原创 【Kafka总结】Kafka 高效读写数据的原理

Kafka通过磁盘来读写数据,一般来说依靠磁盘读写数据的速度远比依靠内存慢,但Kafka拥有高效读写数据的特点,这是怎么做到的呢?

2022-01-08 21:06:00 1582

原创 【总结】Kafka消费者——分区分配策略

一个 consumer group 中有多个 consumer,一个 topic 有多个 partition,所以必然会涉及到 partition 的分配问题,即确定哪个 partition 由哪个 consumer 来消费。Kafka 有两种分配策略,一是 RoundRobin,一是 Range。

2022-01-08 20:37:47 1876

原创 【配置】hadoop、zookeeper、kafka的启动/停止脚本编写

大数据框架集群的启动/停止脚本编写

2022-01-07 17:28:18 219

原创 【Flume总结】Flume 数据流监控

组件:GangliaGanglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数 据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、 网络和活跃进程的数据等。 gmetad(Ganglia Meta Daemon)整合所有信息,并将其以 RRD 格式存储至磁盘的服务。 gweb(Ganglia Web)Gangl

2022-01-07 11:41:18 1449

原创 【总结】Flume的负载均衡和故障转移

总结一下在学 Flume的故障转移和负载均衡的知识和经验总结

2022-01-06 16:37:11 1277

原创 【排障】hadoop104重启后就ping不通,集群无法建立

早上开集群的时候,开到Hadoop104就挂了,发现hadoop104的ip地址又回去了,而且ping不通

2022-01-06 09:44:31 2029 1

原创 【总结】Flume实时监控案例遇到的几个问题

看着尚硅谷的笔记,按着步骤操作,发现从《实时监控单个追加文件》开始就出现问题,具体问题表现为:flume能正常启动和监控,hadoop集群可以正常工作,hive也可以正常工作,但HDFS的网页端上就是没有出现监控日志。

2022-01-05 16:00:26 951

原创 【排障】bash: schematool: 未找到命令的原因

1.检查是否有将 MySQL 的 JDBC 驱动拷贝到 Hive 的 lib 目录下。这一步可能会拷贝错。2.配置 Metastore 到 MySQL,要在hive/conf 目录下新建 hive-site.xml 文件,写入配置信息。拷贝配置信息时要注意换行问题。3.检查配置文件里的密码是否写对,这是拷贝别人的配置信息时需要注意的问题。4.Hive环境变量是否配置无误,最重要的一点是配置好环境变量后一定要先source下

2022-01-05 10:11:00 8935

原创 【排障】搭建HDFS高可用集群中NameNode无法启动

本文解决搭建Hdfs高可用时出现的NameNode无法启动的问题。Multiple shared edits directories are not yet supportedERROR: Cannot set priority of namenode process 4655

2022-01-04 16:44:42 2312 5

原创 Hive 常用函数——日期函数、取整函数、字符串操作、集合操作

Hive 常用函数——日期函数、取整函数、字符串操作、集合操作便于日常学习、工作查询使用

2022-01-02 10:59:37 870

原创 HIVE 窗口函数之 ntile()

先看一个案例:下面是一张订单表要求:查询前 20%时间的订单信息SQL语句:select * from ( select name,orderdate,cost, ntile(5) over(order by orderdate) sorted from business ) t where sorted = 1; 结果:探索:试图查找ntile( )函数的解释:将ntile( ) 中的数字改为3,即ntile(3),结果如下图:数..

2022-01-02 10:22:56 3022

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除