自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark学习_1(Hadoop集群HA模式安装)

1. 引言: 在Hadoop高可用搭建之前首先要准备好,hadoop,jdk,zookeeper的安装包,将安装包解压到合适的位置,本文设置路径位置位于/usr/java下,然后安装解压之后的文件夹名分别为hadoop,jdk1.8,zookeeper。具体路径位置可自由设置,当但你配置Hadoop中的xml文件时,文件路径必须对应好,否则肯定会出错的。 我这里用了三台虚拟机来搭建HA模式,各插件的位置如下图所示:其中master节点和slave1节点安装namenode,slave1和slave

2020-06-15 21:27:49 308

原创 Hive之索引

Hive只有有限的索引功能,没有普通关系型数据库中键的概念,但是可以对一些字段来建立索引,加速某些操作,一张表的索引数据存储在另外一张表中。维护索引需要额外的存储空间,同时创建索引也需要消耗计算量。1、创建索引:CREATE TABLE employees( name string, salary float, subordinates ARRAY<string>, deductions MAP<string,float>, address struct<stre

2020-09-27 15:47:09 5184

原创 初探kafka

一、kafka概述kafka是一个分布式基于发布/订阅的消息队列,构建一个实时传输信息的管道,主要用于大数据实时处理。kafka对消息的保存通过topic进行归类,发送消息称为producer,消息接受者称为consumer,kafka集群由多个kafka实例组成,每个实例称为broker,无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。类似的产品:1、Active MQ:上一代2、Rabbit MQ:上一代3、Rocket MQ:1

2020-09-26 16:37:18 86

原创 初探Flume

Flumeflume是传输数据的框架,hive用来做数据分析,hive用来做分析的数据必须存储在hdfs上,每次执行-put命令过于麻烦,于是就有了flume来帮助传输数据信息。flume在设计之初主要是针对日志数据,如用户在使用商城时,用户的一些行为数据,记录在日志文件中,flume将这些日志文件收集聚合,收集到hdfs上。flume的基本架构Agent:agent是一个JVM进程,以事件(Event)的形式将数据从源头送到目的地。source:负责对接数据源,把数据采集过来,放到Channel

2020-09-25 15:53:05 171

原创 HIVE中的join语句

Hive支持通常的SQL JOIN语句,但是只支持等值连接。1.1、INNER JOIN只有进行连接的两个表都存在与连接标准相匹配的数据才会保存下来select a.ymd a.price b.pricefrom stocks a JOIN stocks b on a.ymd=b.ymdwhere a.symbol='DELL' and b.symbol='HP';ON子句表示了两个表数据进行连接的条件。WHERE子句限制了左边表必须是DELL表右边表必须是HP表。select a.ymd

2020-09-22 20:40:16 457

原创 Hive的管理表,分区表和外部表

1、管理表管理表也称为内部表,这种表或多或少的控制数据的生命周期,Hive在默认情况下会将这些表存储在配置项为hive.metastore.warehouse.dir所定义的目录中。管理表存在一些不足,不方便与其他工作共享数据,例如当有一份数据由pig或其他工具所创建并且主要由这一工具所使用,此时,如果我们需要hive对这份数据执行一些查询,可是并没有给予Hive对数据的所有权,我们可以再创建一个外部表指向该份数据,而不需要具备对其所有权。创建一个管理表一般形式:create table Testta

2020-09-22 18:28:23 383

原创 JVM的内存分配和垃圾回收机制

内存分配JVM的内存可以分为堆内存和非堆内存,堆内存是进行垃圾回收的主要场所。堆内存分为年轻代和老年代,年轻代分为一个伊甸区和两个幸存区。JVM的堆内存大小可以进行调节,默认是物理地址的1/64。最大分配的堆地址是1/4。当空余堆内存大小小于40%时,会自动调节堆内存大小到-Xmx设置的最大可分配堆内存。当空余内存大小大于70%,会自动下降内存大小到**-Xms设置的最小可分配堆内存**。为避免这种情况可将-Xmx的值和-Xms的值大小设为一致。通过参数**-Xmn2G** 可以设置年轻代大小为2G

2020-09-21 17:10:09 262

原创 Java对象创建过程中的内存分配

Java对象创建过程中的内存分配1、一般情况下通过new指令来创建对象,当虚拟机遇到一条new指令的时候,会去检查这个指令的参数是否能在常量池中定位到某个类的符号引用,并且检查这个符号引用代表的类是否已经被加载,解析和初始化。如果没有,那么会执行类加载过程。2、通过执行类的加载,验证,准备,解析,初始化步骤,完成了类的加载,这个时候会为该对象进行内存分配,也就是把一块确定大小的内存从Java堆内存中划分出来,在分配的内存上完成对象的创建工作。3、内存的两种方式:3.1指针碰撞方式:假设Java堆中

2020-09-21 15:31:03 326

原创 HIVE常用函数

HIVE常用函数collect_set函数把同一分组的不同行的元素合成一个集合:示例:1、建表create table stud ( name string, area string, course string, score int);2、向原数据表中插入数据insert into table stud values('zhang3','bj','math',88);insert into table stud values('li4','bj','math',99);i

2020-09-07 14:51:19 82

原创 HBase(HA模式安装)

引言:在安装之前首先得确保hadoop,zookeeper安装成功,hadoop必须也是联邦HA模式安装搭建:1、下载2、解压3、修改配置文件(都在hbase安装目录的~/conf目录下)vim hdfs-site.xml<property> <name>hbase.rootdir</name> <description>下方的值如果是hadoop单namenode集群,配置写成hdfs://master:9000/hba

2020-07-03 20:00:16 342

原创 Spark学习_5(常用RDD学习_下)

combineByKeycombineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,maoSideCombine)createCombiner:在第一次遇到key时创建组合器函数,将RDD数据集中的V类型转换成C类型(V=>C);mergeValue:合并值函数,同时在遇到相同的Key时,createCombiner的C类型与这次传入的V类型值合并成一个C类型值(C,V)=>CmergeCombiner:合并组合器函

2020-06-20 17:52:12 155 1

原创 Spark学习_5(常用RDD学习_上)

引言:该部分内容主要是学习常见的几个RDD算子,并且通过几个综合示例来加强理解。RDD是一个只读的,可分区的分布式数据集,可以全部内容或部分内容缓存在内存。RDD编程基础转换算子:每一次转换(Transformation)操作都会产生新的RDD,但是RDD的转换过程是惰性求值的,所以说转换操作只记录转换过程,不实际计算。只有发生行动操作时才进行计算,常用算子如下:fileter(func):筛选满足函数func的元素,并返回一个新的数据集val lines=sc.textFile(“file://

2020-06-20 15:50:35 141

原创 Spark学习_4(spark的启动方式解析)

引言:通过Spark-shell的交互式编程,有利于在spark学习的初级阶段练习和掌握基本的API,由于spark框架采用的scala语言就行开发的,所以使用spark-shell命令也会默认进入到scala的交互式执行环境中。spark启动命令在配置好了的系统中运行Spark-shell。就可以进入到交互式执行环境中。命令和参数如下:./bin/spark-shell --master master-url其中master-url表示spark的运行模式master-url含义

2020-06-20 15:45:27 271

原创 Spark学习_3(Spark集群YARN模式安装)

Spark on YARN引言:Spark 可以跑在很多集群上,有standalone,Yarn,mesos模式。 satandalone模式采用spark自带的集群资源管理器,效率较低。但不管你Spark采用的是何种集群,它的代码都是一样的,所以在做实验时,配置伪分布式也可以练习代码学习spark。有很多博客在搭建spark集群时将yarn模式和standalone模式混淆了。故本文将练习搭建在yarn模式上。1.配置安装在安装配置之前,需先完成hadoop的配置安装,具体安装方法可参考前文。

2020-06-16 16:03:36 665

原创 Spark学习_2(Spark集群standalone模式安装)

Spark集群安装下载安装包下载安装包下载解压,进入官网根据Hadoop的版本下载对应版的 Spark:下载成功后通过rz命令上传该解压包到Linux系统中。rz将解压包移动到合适的文件夹中,我这里是移动到/usr/java中mv spark-2.4.5-bin-hadoop2.7.tgz /usr/java移动成功之后,进入到/usr/java目录中解压安装包,通过命令ls查看是否出现了解压成功之后的文件夹tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz

2020-06-14 14:55:37 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除