![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
阳阳阳在学大数据
文章平均质量分 76
阳呀么阳阳阳
这个作者很懒,什么都没留下…
展开
-
一文介绍Doris
关于Doris,你想要的这里都有。原创 2023-02-28 16:59:15 · 1745 阅读 · 0 评论 -
Kafka幂等与事务写
一、kafka如何保证幂等二、kafka如何保证事务原创 2022-04-19 18:18:07 · 2372 阅读 · 0 评论 -
Flink Checkpoint 详解
原创 2022-04-08 15:16:44 · 8240 阅读 · 0 评论 -
Hive SQL语法详解
文章参考博客链接-------Hadoop Hive sql语法详解文章参考官方hive依赖于HDFS存储数据,Hive将HQL转换成MapReduce执行,所以说Hive是基于Hadoop的一个数据仓库工具,实质就是一款基于HDFS的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式...原创 2019-07-31 09:42:38 · 1314 阅读 · 0 评论 -
linux脚本编写小结
传参数例子:./xxx.sh “xxxx”(运行前需要赋予一下权限 chmod xxx filename) 文件内:#!/bin/sh name=$1 这样”xxxx”就赋给了name改写命令例子:创建一个.bashrc文件,在里面写上 alias a=’b’ 然后source一下就可以用a代替b命令了脚本快速执行很复杂命令直接在里面写就行了...原创 2018-07-03 11:26:29 · 172 阅读 · 0 评论 -
Spark调优
这里主要是推两篇博客: Spark性能优化指南——基础篇 Spark性能优化指南——高级篇原创 2018-06-08 16:56:22 · 176 阅读 · 0 评论 -
groupByKey与reduceByKey
看一下这两张图,就可以大致了解到两个分别是怎么样了: 提到一下combineByKey:原创 2018-06-08 15:50:04 · 349 阅读 · 0 评论 -
Spark Shuffle一览
目录目录Hash-based Shuffle 原始的Hash Shuffle机制优化后的 HashShuffle 机制-Consolidated HashShuffleSort-Based Shufflebypass运行机制Hash-based Shuffle 原始的Hash Shuffle机制Hash shuffle经历了两个阶段,第一个...原创 2018-06-08 15:15:27 · 312 阅读 · 0 评论 -
Hbase调优
Ps:这里列举一些常见的Hbase调优,并不全面,如果想要全面的了解hbase调优,可以参考Hbase的官方文档,或者参考这篇总结自官方的博客。本文将从三个方面来对Hbase的调优进行总结:参数调优、表的设计、读取优化、写入优化。目录目录一、参数调优1.zk超期参数2.RegionServer的请求处理IO线程数3.ReigonServer上单个Reigon的最大存储空...原创 2018-06-07 22:19:11 · 276 阅读 · 0 评论 -
Yarn on cluster 与 Yarn on client
Yarn-cluster 在Yarn-cluster模式下,driver运行在Appliaction Master上,Appliaction Master进程同时负责驱动Application和从Yarn中申请资源,该进程运行在Yarn container内,所以启动Application Master的client可以立即关闭而不必持续到Application的生命周期,下图是yarn...原创 2018-06-07 15:34:19 · 418 阅读 · 0 评论 -
面试琐碎知识小结(持续更新)
目录目录Hadoop集群搭建的步骤Spark提交到Yarn上的过程Hadoop杀死一个jobpython-openCV的颜色空间转换RDD的特点Hadoop集群搭建的步骤1.配置host文件(写上集群里所有的机器及其对应的IP) 2.配置免密码登陆SSH 3.安装JDK 4.安装Hadoop 5.配置文件:hdfs-site.xml、ma...原创 2018-06-05 12:07:26 · 174 阅读 · 0 评论 -
数据挖掘算法简略总结(等待继续更新,现在有点不想写这个)
目录目录PCAK-meansSVM(支持向量机)决策树PCA可以参考这篇文章介绍:主成分分析法,在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对...原创 2018-06-05 11:41:16 · 511 阅读 · 0 评论 -
Spark 的运行过程(本人的一些总结)
最近在复习Spark,有了一些自己的总结,在这里码上留作自己以后回忆所用。 (ps:本文不涉及基本概念的解答,只提供一个大致的思路) 代码的编写,缺少不了的就是main函数,而一个使用Spark的代码是怎么写的呢,首先是main函数,在main函数里会先创建一个Sparkcontext,数据的形式是RDD,内部函数是Spark中的transformation和actio...原创 2018-05-20 19:00:46 · 358 阅读 · 0 评论 -
Hive SQL调优总结
Hive SQL调优总结本文参考链接(总结的很棒很全面)这里只是总结了一下HQL上面的一些优化点,并不考虑Hadoop层面的参数、配置优化目录Hive SQL调优总结目录使用分区剪裁、列剪裁少用count(distinct)多对多的关联合理使用MapJoin合理使用Union ALL并行执行job使用本地MR合理使用动态分区避免数据倾斜控制Map数...转载 2018-06-03 15:52:23 · 9287 阅读 · 0 评论