菜鸟苏先森-CSDN博客

原创 SparkSQL学习中SQL分析函数的使用

SparkSQL/Hive 提供了许多的分析函数，用于完成复杂统计分析。sum、avg、min、max，分别用于计算分组内相关统计信息。1、用SQL实现下面的操作测试数据：±-------±------------------±–+|cookieid| createtime| pv|±-------±------------------±–+| cookie1|201...

2019-05-08 16:52:04 873

原创苏先生之Hive底层调优

一、为什么要了解底层HiveQL是一种声明式语言，用户会提交查询，而hive将其转换成MapReduce job，大多数情况我们不需要了解hive的内部工作，内部复杂的查询解析、优化和执行过程大部分时间我们是可以忽视的，不过想要彻底的掌握hive，我们就需要学习hive的理论知识以及底层的实现，这样会让用户更加高效的使用hive。二、hive的各种调优手段1、学会使用explain对于ex...

2019-02-21 16:31:15 360

1、什么是kafka（1）Kafka是一种高吞吐量的、分布式、快速、可扩展的、分区和可复制，基于发布／订阅模式的消息系统，是Apache项目的一个顶级项目。使用Scala语言编写，目前已被广泛应用于各行业各类型的数据管道和消息系统中。（2）Kafka可以同时满足在线实时处理和批量离线处理；在大数据生态系统中，通常将Kafka作为数据交换枢纽，不同类型的系统（关系数据库、NoSQL数据库、流处理...

2019-05-10 16:24:41 179

原创苏先生数据结构学习之java实现简单二叉树

一、哈希表

2019-02-20 16:12:22 106

原创苏先生排序算法之插入排序

插入排序是最简单的排序算法之一，它由n-1趟排序组成，如下原始数据 5,4,6,1,2p=1时 4,5,6,1,2 移动1位p=2时 4,5,6,1,2 移动0位p=3时 1,4,5,6,2 移动3位p=4时 1,2,4,5,6 移动3位对于p=1到n-1趟，插入排序保证了0到p上的元素为已排序状态，在第p趟时，将位置p上的元素向左移动，直到它找到正确的位置，代码如下...

2019-01-28 15:23:34 116 2

原创苏先生数据结构学习之线性表

线性表的特点如上图所示，a2是a1的后继，a1是a2的前驱，其中a1没有前驱，an没有后继，n为线性表的长度，当n==0时，线性表为空其中顺序存储方式的表称为顺序表，链式存储方式的表称为链表一、顺序表存储位置连续，可以很方便计算各个元素的地址，查询效率高，增删效率低代码实现add、remove二、链表线性表的链式存储结构的特点是用一组任意的存储单元存储线性表的数据元素，这组存储单元...

2018-12-07 15:31:00 111

原创苏先生之大数据面试经验总结（二）

1、flume与kafka的区别flume适合做日志采集，可以定制多种数据源，减少开发量；而kafka是分布式消息处理的中间件，自带存储功能，适合做日志缓存；flume主要用于将数据往HDFS、HBASE发送；如果涉及多个系统的使用，可以选择用kafka2、kafka如何保证数据不丢失、不重复消费（1）在同步模式下，将ACKS设为-1，也就是将消息写入leader和所有的副本（2）在异步模...

2018-11-25 21:22:23 304

原创苏先生之大数据面试经验总结（一）

hive的计算是通过什么实现的hive是搭建在Hadoop集群上的一个SQL引擎，它将SQL语句转化成了MapReduce程序在Hadoop上运行，所以hive的计算引擎是MapReduce，而hive的底层存储采用的是HDFSyarn和hive的关系因为hive的底层实现是MapReduce，所以确切的来说是yarn和MapReduce的关系，yarn可以作为MapReduce计算...

2018-11-24 20:51:49 2060 2

原创苏先生关于数据仓库hive（一）

hive与传统数据库相比：Hive简介Hive 是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL （类 SQL ）语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在 HDFS 中的。...

2018-11-23 16:15:46 149

原创苏先生关于HDFS文件的读写

文件的读取流程使用HDFS的客户端，向远程的NameNode发起RPC请求Namenode会据情况返回部分或者全部的block列表，对于每个block块，NameNode都会返回有该block块拷贝的DataNode地址客户端Client会选取离客户端最近的DataNode来读取block，如果客户端本身就是DataNode，那直接从本地读取读取完当前block的数据后，关闭当前的Dat...

2018-11-23 15:34:15 189

原创苏先生关于RPC

HDFS数据流的读写包括以下几个内容：RPC实现流程RPC实现模型文件的读取文件的写入文件的一致模型什么是RPC1.RPC（Remote Procedure Call）——远程过程调用，是一种协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC...

2018-11-23 15:04:34 147

qq_34116784的博客