凤无痕-CSDN博客

原创 Spark学习_1（Hadoop集群HA模式安装）

1. 引言：在Hadoop高可用搭建之前首先要准备好，hadoop，jdk，zookeeper的安装包，将安装包解压到合适的位置，本文设置路径位置位于/usr/java下，然后安装解压之后的文件夹名分别为hadoop，jdk1.8，zookeeper。具体路径位置可自由设置，当但你配置Hadoop中的xml文件时，文件路径必须对应好，否则肯定会出错的。我这里用了三台虚拟机来搭建HA模式，各插件的位置如下图所示：其中master节点和slave1节点安装namenode，slave1和slave

2020-06-15 21:27:49 326

原创 Hive之索引

Hive只有有限的索引功能，没有普通关系型数据库中键的概念，但是可以对一些字段来建立索引，加速某些操作，一张表的索引数据存储在另外一张表中。维护索引需要额外的存储空间，同时创建索引也需要消耗计算量。1、创建索引：CREATE TABLE employees( name string, salary float, subordinates ARRAY<string>, deductions MAP<string,float>, address struct<stre

2020-09-27 15:47:09 5343

原创初探kafka

一、kafka概述kafka是一个分布式基于发布/订阅的消息队列，构建一个实时传输信息的管道，主要用于大数据实时处理。kafka对消息的保存通过topic进行归类，发送消息称为producer，消息接受者称为consumer，kafka集群由多个kafka实例组成，每个实例称为broker，无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。类似的产品：1、Active MQ：上一代2、Rabbit MQ：上一代3、Rocket MQ：1

2020-09-26 16:37:18 98

原创初探Flume

Flumeflume是传输数据的框架，hive用来做数据分析，hive用来做分析的数据必须存储在hdfs上，每次执行-put命令过于麻烦，于是就有了flume来帮助传输数据信息。flume在设计之初主要是针对日志数据，如用户在使用商城时，用户的一些行为数据，记录在日志文件中，flume将这些日志文件收集聚合，收集到hdfs上。flume的基本架构Agent：agent是一个JVM进程，以事件（Event）的形式将数据从源头送到目的地。source：负责对接数据源，把数据采集过来，放到Channel

2020-09-25 15:53:05 193

原创 HIVE中的join语句

Hive支持通常的SQL JOIN语句，但是只支持等值连接。1.1、INNER JOIN只有进行连接的两个表都存在与连接标准相匹配的数据才会保存下来select a.ymd a.price b.pricefrom stocks a JOIN stocks b on a.ymd=b.ymdwhere a.symbol='DELL' and b.symbol='HP';ON子句表示了两个表数据进行连接的条件。WHERE子句限制了左边表必须是DELL表右边表必须是HP表。select a.ymd

2020-09-22 20:40:16 494

原创 Hive的管理表，分区表和外部表

1、管理表管理表也称为内部表，这种表或多或少的控制数据的生命周期，Hive在默认情况下会将这些表存储在配置项为hive.metastore.warehouse.dir所定义的目录中。管理表存在一些不足，不方便与其他工作共享数据，例如当有一份数据由pig或其他工具所创建并且主要由这一工具所使用，此时，如果我们需要hive对这份数据执行一些查询，可是并没有给予Hive对数据的所有权，我们可以再创建一个外部表指向该份数据，而不需要具备对其所有权。创建一个管理表一般形式：create table Testta

2020-09-22 18:28:23 413

原创 JVM的内存分配和垃圾回收机制

内存分配JVM的内存可以分为堆内存和非堆内存，堆内存是进行垃圾回收的主要场所。堆内存分为年轻代和老年代，年轻代分为一个伊甸区和两个幸存区。JVM的堆内存大小可以进行调节，默认是物理地址的1/64。最大分配的堆地址是1/4。当空余堆内存大小小于40%时，会自动调节堆内存大小到-Xmx设置的最大可分配堆内存。当空余内存大小大于70%，会自动下降内存大小到**-Xms设置的最小可分配堆内存**。为避免这种情况可将-Xmx的值和-Xms的值大小设为一致。通过参数**-Xmn2G** 可以设置年轻代大小为2G

2020-09-21 17:10:09 304

原创 Java对象创建过程中的内存分配

Java对象创建过程中的内存分配1、一般情况下通过new指令来创建对象，当虚拟机遇到一条new指令的时候，会去检查这个指令的参数是否能在常量池中定位到某个类的符号引用，并且检查这个符号引用代表的类是否已经被加载，解析和初始化。如果没有，那么会执行类加载过程。2、通过执行类的加载，验证，准备，解析，初始化步骤，完成了类的加载，这个时候会为该对象进行内存分配，也就是把一块确定大小的内存从Java堆内存中划分出来，在分配的内存上完成对象的创建工作。3、内存的两种方式：3.1指针碰撞方式：假设Java堆中

2020-09-21 15:31:03 344

原创 HIVE常用函数

HIVE常用函数collect_set函数把同一分组的不同行的元素合成一个集合：示例：1、建表create table stud ( name string, area string, course string, score int);2、向原数据表中插入数据insert into table stud values('zhang3','bj','math',88);insert into table stud values('li4','bj','math',99);i

2020-09-07 14:51:19 103

原创 HBase（HA模式安装）

引言：在安装之前首先得确保hadoop，zookeeper安装成功，hadoop必须也是联邦HA模式安装搭建：1、下载2、解压3、修改配置文件（都在hbase安装目录的~/conf目录下）vim hdfs-site.xml<property> <name>hbase.rootdir</name> <description>下方的值如果是hadoop单namenode集群，配置写成hdfs://master:9000/hba

2020-07-03 20:00:16 381

原创 Spark学习_5（常用RDD学习_下）

combineByKeycombineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,maoSideCombine)createCombiner:在第一次遇到key时创建组合器函数，将RDD数据集中的V类型转换成C类型（V=>C）;mergeValue:合并值函数，同时在遇到相同的Key时，createCombiner的C类型与这次传入的V类型值合并成一个C类型值（C，V）=>CmergeCombiner:合并组合器函

2020-06-20 17:52:12 207 1

原创 Spark学习_5（常用RDD学习_上）

引言:该部分内容主要是学习常见的几个RDD算子，并且通过几个综合示例来加强理解。RDD是一个只读的，可分区的分布式数据集，可以全部内容或部分内容缓存在内存。RDD编程基础转换算子：每一次转换（Transformation）操作都会产生新的RDD，但是RDD的转换过程是惰性求值的，所以说转换操作只记录转换过程，不实际计算。只有发生行动操作时才进行计算，常用算子如下:fileter(func):筛选满足函数func的元素，并返回一个新的数据集val lines=sc.textFile(“file://

2020-06-20 15:50:35 166

weixin_38942735的博客