自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark核心知识点

1,RDD的原理:1,RDD是Spark中最基本的运算模式,它只负责处理运算逻辑,不存储数据本身,通过转化换算子链式的去处理数据,转换算子在执行程序过程中是不加载数据的(算子:scala中的map,flatmap等)在Spark中称为算子,可以处理通过它处理数据。2,在RDD中最终的数据打印时通过调用,行动算子从前一个hashNext进行调用,最终第一个RDD1去hashNext数据,所以RDD的就是一个封装的迭代器,就是它的真面目,一次次迭代到每个RDD中,当有多次计算时,计算的逻辑会封装在每个计

2022-03-29 10:14:17 2402

原创 redis核心知识点(一)

1,redis基本语法:1,key键keys *:查看redis中所有的key值(set一个key值name)2,del:删除指定的key值3,exists:查看redis中key是否存在,存在返回1不存在返回04,expire:设置key的有效时间(单位为秒),和ttl查看key值的有效时间一起用5,expireat:作用和EXPIRE类似,都用于为key设置存在时间(单位为时间戳)。6,move:将当前数据库的key移动到给定的数据库db...

2022-03-25 19:51:06 850

原创 clickhouse深入知识(一)

1,重要引擎:MergeTree()1,它可以说是clickhouse中最重要的一个引擎了,主要作用是对数据排序,分区,合并,能够把数据有条理的进行存储与分配,默认是大于五条数据更新一次,同样也可以手动更新:optimize table 表名 final; 可以提前更新相同的数据合并在同一个文件,根据clickhouse的底层优化机制,合并后,多余的文件会在一段时间后自动销毁,减少空间浪费。2,衍生引擎:ReplacingMergeTree()1,这是一个去重的引擎,可以根据排序字段值重复的可以

2022-03-20 20:30:10 1165

原创 scala知识点(二)

1,scala的作用:1,scala的构造器原则,在scala中可以有伴生关系,就是class类和object对象在同一个体系中,这样可以在object定义class类的对象,来传递参数进行封装,举个例子看一下:class mm (val id:Int ,val name:String ) { } , object mm{ } 。在此类中可以直接通过定义的class对像直接调用,用val和var定义的参数。...

2022-03-17 21:58:00 80

原创 scala知识点

1,简介:scala是面向对象语言,和函数式编程语言,在scala中一切都是函数,不管是定义的变量还是方法,scala底层同样和java一样,用JVM处理class字节文件,2,用法:1,在scala中用val,和var定义变量,val定义的变量是不可变的,var定义的变量是可变的,同样定义class类是非静态的,object对象是静态的,可以用来共享数据。2,定义方法:def 方法名:方法类型(可省略):(返回值类型)={ 方法体}3,定义函数:val 函数名=(x :Int,y:St

2022-03-13 23:27:47 757

原创 hive深入知识(二)

1,hive的行转列,和列转行1,行转列:1.1,首先行转列的函数有:concat():把字符串连接在一起,可以有任意字符,缺点是要重复写分隔符。concat_WS(),第一个参数可以指明分隔符,第二个参数可以是集合,字符串。collect_list():收集器,可以收集元素放进集合中,也可以作为concat_WS()的第二个参数。上面几个为行转列常用的函数。2,列转行:2.1,这个案例的话,还是比较容易的,最主要的是理解explode():炸裂的意思,主要作用就是把map集合和array集

2022-03-06 22:13:39 1248

原创 hive深入知识(一)

1,开窗函数:over(),指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。什么境况下用到这个函数呢,可以用来统计数据大小,和聚合函数一起使用,下面通过一个案例来操作一下:1,首先准备数据:ja,2017-01-01,10ny,2017-01-02,15ja,2017-02-03,23ny,2017-01-04,29ja,2017-01-05,46ja,2017-04-06,42ny,2017-01-07,50ja,2017-01-08,55mart,

2022-03-06 09:01:24 124

原创 hive之核心知识点(三)

1,hive的深入学习:1.1,hive的表的动态分区:动态的进行表的分区,能够节约我们的效率,分区的话根据分区字段的值,选好我们需要分区的字段,根据业务需求来分析。动态分区有几个要点:1,准备数据:1,zss,bj22,lss,bj3,tg,sh4,xg,bj5,ln,sd6,yg,sh2,创建普通表:create table tb_text( id string , name string , city string)row forma...

2022-03-04 21:16:36 1506

原创 hive之核心知识点(二)

关于hive入门的核心要点。

2022-03-03 21:17:49 1793

原创 hive之核心知识点(一)

1,hive关键点:hive是通过mysql语句进行处理数据,首先我们在客户端写sql语句,把写的sql语句的元数据信息加载到mysql中,mysql和hdfs映射的表结构进行交互,最后通过mapreducer进行处理,显示处理过后的信息,底层数据没有变化,只是把处理的数据显示出来,同样可以把处理过后的数据,保存起来,保存到hdfs底层硬件中,这样以来可以看出hive处理大数据的强大之处。...

2022-03-01 21:08:07 596

原创 hbase的newsql操作

1,通过安装软件的

2022-03-01 00:05:58 433

原创 hbase的核心深入部分

1,hbase读写过程:1.1写过程:简单来说,hbase的写过程主要是客户端和regionserver的交互作用。第一:客户端发起写请求向zookeeper,在zookeeper上找到元数据的位置信息返回给客户端,客户端缓存解析出元数据的位置信息。第二:解析到的元数据信息到指定的regionserver上下载meta信息解析出数据的存储位置。第三:找到指定的regionserver的位置,把数据写到region中的memstore中。...

2022-03-01 00:04:10 239

原创 关于hbase知识点总结与解惑

1,hbase缘由:数据库有很多种,有行式存储的MySQL数据库,也为关系型数据库,是一个具有关联型数据库,各表之间能够连表查询,但是不能支持大数据量的查询与存储,所以就出现了能够存储大数据的非关系型数据库hbase。2,hbase介绍:hbase(Hadoop DataBase):从他的全名可以看出他是一个分布式数据库,也是一个列式型数据库,由于是分布式和以列式存储所以不支持join查询,也就是连表查询。1,habse的内部组件有一个hmaster,一个zookeeper集群,一个data

2022-02-24 22:32:04 596

原创 关于redis错误解决(error) MISCONF Redis is configured to save RDB snapshots, but it is currently not able t

出现这个错误,我的原因是集群中的机器突然断开,再次登录进去出现rdb信息错误,因为rdb是二进制存储,当没有手动设置保存,和配置中没有设置时,突然断开加载不了配置,(Redis被配置为保存RDB快照,但它目前不能在磁盘上持久化。可能修改数据集的命令被禁用,因为这个实例被配置为如果RDB快照失败,在写过程中报告错误(stop-write -on-bgsave-error选项)。关于RDB错误的详细信息,请查看Redis日志。),出现这样的错误,就是没有再磁盘上持久化,我的解决方法是把:du...

2022-02-23 19:34:20 3393 3

原创 关于zookeeper和hadoop集群的关联关系

zookeeper:在集群中的作用是负责管理集群中·包括(namenode,ReducerManger,的主备切换作用,以及一些分布式组件的配置信息,和状态信息,还提供发布/订阅功能其主要目的就是在zookeeper集群上通过创建znode节点记录集群中一些位置信息,状态信息的变化,然后通过zookeeper的watcher机制把变化的节点中的内容通知到客户端,然后客户端从hadoop集群上下载内容),和负责监控集群的nameNode的状态。主备切换:简单点就是说假如存在两个nameNode,一个nam

2022-02-15 17:35:13 5072

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除