自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 HBase基础篇

当 StoreFile ⽂件数过多,触发 Compact 操作【StoreFile 的压缩操作,被标记为删除的⾏真正删除,被标记为修改的单元格真正修改, 形成⼀个⼤的 StoreFile】;将所有⽂件压缩为⼀个⼤⽂件,由于发⽣⼤量磁盘读写,更适合⽆⼤量访问时执⾏。单元格不同版本的值按照版本号逆序排列,即最新的排在最前⾯。⽔平⽅向 上的切分,具备表的全部列,某列过⼤时就会被切分。hbase 使⽤哈希表访问数据,适⽤实时数据随机访问的场景【⾼并发,简单条件,随机查询】将部分⼩⽂件压缩合并为⼀个⼤⽂件。...

2022-08-18 20:36:11 458 1

原创 Kafka基础篇

常用的KafkaProducer和KafkaConsumer用来连接Kafka集群的入口参数。设置是否启用自动提交offset,默认true(可不写)设置bootstrap-servers参数。设置bootstrap-servers参数。指定类对value进行反序列化。设置自动提交间隔时间(可不写)指定类对value进行序列化。指定类对key进行反序列化。指定类对key进行序列化。...

2022-08-17 20:29:25 1113

原创 Scala高级篇

类比于java 中的 switch...case,但比其要强大、灵活很多。旨在解决符合一定模式(值也是模式的一种)情况下的匹配与处理问题。一个模式匹配包含了一系列备选项,每个都开始于关键字case。每个备选项都包含了一个模式及一到多个表达式。箭头符号=>隔开了模式和表达式。选择器match {备选项},match 表达式通过以代码编写的先后次序尝试每个模式来完成计算,只要发现有一个匹配的 case,剩下的 case 不会继续匹配。经典示例(同类型)defmain(args。...

2022-08-17 19:58:11 387

转载 Spark常用算子

fullOuterJoin算子(K,,V)格式的RDD和(K,V)格式的RDD,使用fullOuterJoin结合是以两边的RDD出现的key为主,得到(K(Option(V),Option(W)))会产生shuffle,(K,V)格式的RDD和(K,V)格式的RDD按照相同的K,join得到(K,(V,W))格式的数据,分区数按照大的来。取RDD的差集,subtract两个RDD的类型要一致,结果RDD的分区数与subtract算子前面的RDD分区数多的一致。...

2022-08-11 20:44:31 4229

原创 Scala高级篇

导⼊类: import scala.util.control.Breaks.{break, breakable}Scala 不限定输⼊与输出类型,可以⽤临时变量做复杂判断,但是匹配不到(不写默认值)时会报错。要求:写到 object 中,使⽤ apply 与 unapply 为函数名(这是两个函数)。scala 独有的概念,只是概念⽽不是代码,需要程序员⾃⼰实现,⼀般写到 object ⾥。使⽤正则: "正则表达式".findAllIn(reg).group(1)基本与 java 相同,增添了少数类。...

2022-08-10 19:36:28 113

原创 Scala进阶篇

主要包含 10 种函数高级应用,包括 函数传名调用 指定函数参数名调用 可变参数的函数 默认参数值函数 递归函数 高阶函数 内嵌函数 匿名函数 偏应用函数 函数柯里化 应用示例-传名 object TestNonFixParas {def main(args: Array[String]) { printAllPa

2022-08-09 19:36:34 217

原创 Hive项目流程总结

解决方法: 使用java程序读取源文件,将每个单元格以用户无法输入的字符(\001)作为分隔符,从而使hive正确分隔数据。SerDe 是 Serializer/Deserializer 的简写,本质是一个java程序,hive用它来处理源文件,将源文件中的数据映射到一张表中。在hive中创建两张表weibo_origin、weibo_product,第一张表装载可被hive正确识别的数据文件,第二张表装载第一张表清洗后的数据。从hive中导出想要的数据,并加载到mysql中。...

2022-08-08 21:07:51 719

原创 Scala基础篇

对象:类的一个具体实例,对象包含属性和方法,如旺财有属性毛色和看家本领能力。类:类是对象的抽象,对象是类的一个实例。方法:描述类所拥有的行为能力,一个类可以拥有多个方法。属性:也称字段,即每个对象拥有它自身实例变量集合,通过赋值来创建真正的属性值。区分大小写类名:首字母要大写,如 class HelloWorld{},class Person{},class Student{},也称大驼峰方法名称:首字母小写,从第2个单词开启的首字段大写,如。...

2022-08-08 21:03:55 373

原创 SQL笔记

3、分组语句【groupby……2、where语句是对条件加以限定;1、最先执行fromtab;6、orderby排序语句。5、select语句;

2022-08-01 19:41:53 409

原创 Hive基础篇-04

第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为null中,取默认值,如不指定,则为null)第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)rowsbetween即为window子句或称窗口子句,属于物理截取,即物理窗口,从行数上控制截取数据的大小多少。row_number用于排序,按照顺序,不关心是否有相等的情况,从1开始逐条给数据加1后的序列号。...

2022-07-28 20:43:50 358

原创 Hive基础篇-03

创建maven项目创建class类型,集成UDF约定俗称重写,evaluate编写业务逻辑打包上传上传到hdfs中hive执行addjar创建临时函数UV、PV、QPS使用参数修改hive-site.xml启动hive的时候加上--hiveconf进入hive之后可以通过set设置mysql-e"sql语句"在windows命令提示符界面使用mySQL的sql语句hive-e""hive的脚本格式代码示例#!/bin/bashhive-e"$?......

2022-07-27 20:53:50 359

原创 Hive基础篇—02

元数据描述数据的数据表分类主要分内表和外表内表元数据和数据本身均被hive管理。删除表则全部删除。外表元数据被hive管理,数据本身存储在hdfs,不受hive管理。删除表则只删除元数据,数据本身不变。建表语句模板建表语句示例idint,)关键词解释创建内部表还是外部表,此为内外表的唯一区分关键字。给字段添加注释给表本身添加注释按哪些字段分区,可以是一个,也可以是多个按哪几个字段做hash后分桶存储用于设定行、列、集合的分隔符等设置显示所有表更改表名增加字段。...

2022-07-26 21:52:59 1163

原创 Hive基础篇

专业定义英文名称为DataWarehouse,可简写为DW。是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。通俗解释面向分析的存储系统(面向数据分析的存储系统)...

2022-07-25 20:08:43 67

原创 Hadoop基础篇-hdfs-01

大数据处理的两个重要指标吞入量单位时间处理数据的数量延迟处理数据的速度,延迟越高说明处理的越慢大数据处理瓶颈问题IO瓶颈---大数据处理里绝大多数都是io瓶颈计算瓶颈。

2022-07-20 21:57:40 157

原创 Redis学习笔记-基础篇

Sentinel(哨兵)是用于监控Redis集群中Master状态的工具,是Redis高可用解决方案,哨兵可以监视一个或者多个redismaster服务,以及这些master服务的所有从服务。aof的文件会越来越大,当文件大小达到阈值的时候,会触发rewrite,这时候会文件进行压缩操作,删除被覆盖掉的、无意义的操作。写到redis内存的同时,会先写一份aof的日志,后续如果需要恢复的化,从头到尾执行日志里的内容就行了。数据过期后,并不会立刻删除,等到下次访问的时候,redis才会删除该数据。...

2022-07-18 22:04:56 990

原创 Linux学习笔记-02

说明该命令有两项功能,其一是用来显示文件的内容,它依次读取由参数file所指明的文件,将它们的内容输出到标准输出上;其二是连接两个或多个文件,如cutf1f2>f3将把文件f1和f2的内容合并起来,然后通过输出重定向符“>”的作用,将它们放入文件f3中。显示或者忽略重复的行。+-以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。-i排序时,除了040至176之间的ASCII字符外,忽略其他的字符;-d排序时,处理英文字母、数字及空格字符外,忽略其他的字符;...

2022-07-13 21:21:29 144

原创 Linux学习笔记-01

linux学习笔记

2022-07-12 21:49:57 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除