CSDN大数据专栏
文章平均质量分 94
主要介绍Hadop、Spark、Hive 等大数据组件的相关原理与使用场景
编程小王子啊
这个作者很懒,什么都没留下…
展开
-
Hadoop源码分析---Namenode和Datanode
1. 使用hadoop FileSystem类读取文件系统代码如下:public static void main(String[] args) { Configuration conf = new Configuration(); try { FileSystem fs = FileSystem.get(conf); ...原创 2021-06-22 03:11:11 · 605 阅读 · 2 评论 -
kudu Clock considered unsynchronized 问题解决
1. 必须开启本机的ntpd服务2. 必须在高版本的ntp配置文件中加上这行记录:server 127.127.1.0 iburst fudge 127.127.1.0 stratum 8否则使用ntpp -q命令会报如下错误:ntpq -pNo association ID's returned3....原创 2021-06-22 11:04:23 · 1895 阅读 · 0 评论 -
Hive 架构、日期函数、动态分区、高级查询函数,最详细全面的hive 知识点总结
1. hive数据类型1.1 基本类型类型与表中的列关联。 支持以下基本类型:整型TINYINT-1个字节的整数SMALLINT-2字节整数INT—4字节整数BIGINT-8字节整数布尔型BOOLEAN-正确/错误浮点型FLOAT-单精度双倍—双精度定点数DECIMAL-用户定义的比例和精度的固定点值字符串类型STRING-指定字符集中的字符序列VARCHAR...原创 2021-07-09 23:24:56 · 620 阅读 · 5 评论 -
Spark Standalone模式部署教程及参数配置修改
1. 下载Spark安装包并解压后,有以下目录:其中bin目录下放置了和spark server端交互的shell文件,如spark-submit,spark-sql,beeline等。conf目录下放置关于spark应用的配置文件,jars目录下存放spark程序运行的依赖jar包,sbin目录下存放启动和停止spark进程的控制脚本。2. spark standalone模式采用M...原创 2021-07-12 06:58:16 · 816 阅读 · 2 评论 -
Spark RDD count, sample, colease, distinct, order by 等算子实现原理解析
前言我们在编写 spark 代码来处理数据时,大多数的工作都是调用 spark api 对数据做转换,然后收集最终结果。这些 api 函数便被称之为算子(operation)。一、RDD 算子概览Spark rdd 算子可以分为以下 3 类:非 shuffle 类 transform 算子,以 map,filter,flatmap 算子为代表,这类算子的特点是不会触发 rdd 计算过程,只是将一个 rdd 转换成另一个 rdd,前后两个 rdd 之间是窄依赖关系(Narrow Depende原创 2021-09-24 19:35:44 · 1745 阅读 · 2 评论 -
Hadoop 学习笔记——HDFS架构设计概览
一、HDFS是什么随着移动互联网技术的发展,产生的用户数据也越来越多,对服务器存储需求也越来越大。服务器存储扩展有两个方向:1)垂直扩展,添加多个磁盘,缺点是单台机器能支持的磁盘总数有限,并且磁盘数太多会影响机器读取数据的能力。2)水平扩展,添加多台机器组成集群,将文件分散到集群中各个机器上存放,但是需要机器间网络通信以及某个节点挂掉无法提供的问题,而HDFS的出现便是为了解决这个问题的。HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanod原创 2021-07-13 08:47:01 · 217 阅读 · 1 评论 -
Spark on yarn——Spark提交任务到yarn集群源码分析
1. 当使用spark-submit命令提交任务时,处理类是SparkSubmit,核心代码如下:object SparkSubmit extends CommandLineUtils with Logging { override def main(args: Array[String]): Unit = { appArgs.action match { case ...原创 2021-08-07 12:44:48 · 1676 阅读 · 1 评论 -
Spark sql 学习笔记 —— DataFrame、Dataset、sql 解析原理
一、Spark sql创建dataframe的三种方式1. 要使用sparksql功能,需要需创建一个SparkSession对象,使用SparkSession.builder()方法来创建: val session = SparkSession .builder() .appName("Spark Hive Example") .master("local[2]") .enableHiveSupport() //开启Hive支持 ...原创 2021-08-15 09:14:14 · 906 阅读 · 0 评论