![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 92
唐豌豆
这个作者很懒,什么都没留下…
展开
-
spark Streaming作为consumer使用kafka的正确姿势
spark Streaming -> kafkacreateDirectStream()方法传参有三种ssc,是一个StreamingContext对象LocationStrategies位置策略:控制特定的主题分区是在哪个执行器上消费的,在executor针对主题分区如何对消费者进行调度,位置策略有如下三种1、PreferBrokers首选Kafka服务器,只有在kafka服务器和executor位于同一主机,可以使用改策略2、PreferConsistent:首选一致性原创 2020-12-14 23:09:15 · 721 阅读 · 0 评论 -
Hive调优的总结
文章目录hive的优势Hive的优化1、数据倾斜情况下的Hive优化2、从map reduce的Task数量考虑2.1 map阶段优化2.1.1 调整分块大小2.2 reduce阶段优化2.3 小文件合并优化(合并map的输出文件,reduce的结果文件)3 、SQL优化3.1 列裁剪3.2 分区裁剪3.2利用Hive对Union all优化的特性3.3解决Hive对Union all优化的短板3.3 优化in/exists语句3.4 排序选择4、其他4.1 模式选择5、JVM重用6、推测执行hive的优原创 2020-12-08 20:08:19 · 298 阅读 · 0 评论 -
大数据【粮仓】分布式列式数据库:Hbase原理、结构
文章目录HBase的基本架构一、HBASE架构及其基本组件图解二、主要组件:rowkey的设计原理:三、物理模型:四、物理存储:五、Hbase 读写原理Hbase的读流程:读流程图解过程:Hbase的写流程:图解过程HBase的基本架构一、HBASE架构及其基本组件图解先上大图:后面说明二、主要组件:① RowKey:是一个字节数组(byte array),是表中每条记录的‘主键’,方便快熟查找rowkey的设计原理:1、长度原理:a. rowkey是一个二进制码流,可以是任意字符串,最原创 2020-10-24 11:34:21 · 526 阅读 · 0 评论 -
大数据【内核】---MapReduce的详细执行流程(三)
文章目录一、MR的整体执行流程图二、MR的整体执行流程:(Yarn模式)map task逻辑运算过程shuffle过程reduce task 逻辑运算过程一、MR的整体执行流程图二、MR的整体执行流程:(Yarn模式)client申请作业,Yarn系统返回一个jobid客户端程序在**submit()**方法执行前,获取待处理的数据信息,然后根据集群中的参数的配置形成一个任务分配规划(jar包、Configuration信息、InputSplit分片信息),客户端上传任务分配规划,到相应的HDF原创 2020-09-25 18:14:54 · 282 阅读 · 0 评论 -
scala程序打jar包,spark终端下执行jar包( spark-submit 提交的几种模式))
运行环境工具:idea2019条件:maven管理j依赖jar包,建立的是quickstart工程jar包核心代码object MySpark { def main(args: Array[String]): Unit = {// val conf = new SparkConf().setMaster("local[*]").setAppName("myjob")// val sc = new SparkContext(conf)// //使用空格分离,words与数字原创 2020-09-23 17:22:11 · 1669 阅读 · 0 评论 -
大数据【筑基】---Spark【初窥门径】
一、Spark简介诞生:诞生于加州大学伯克利分校AMP实验室,一个基于内存的分布式计算框架发展历程:2009年诞生于加州大学伯克利分校AMP实验室2010年正式开源2013年6月正式成为Apache孵化项目2014年2月成为Apache顶级项目2014年5月正式发布Spark 1.0版本2014年10月Spark打破MapReduce保持的排序记录2015年发布了1.3、1.4、1.5版本2016年发布了1.6、2.x版本使用Spark的缘由由于Mapreduce编程模型的一下局原创 2020-09-23 15:22:02 · 216 阅读 · 0 评论 -
大数据【任督二脉】--从HDFS读写数据流程开始打通(二)
写在前面:可先去看这篇文章《Hadoop生态剥茧抽丝(一),【中枢神经】Yarn的job流程》文章目录一、hdfs写数据流程简化流程流程图二、hdfs读数据流程简化流程:读数据流程图三、名词NameNode(Master)在HDFS中:DataNode(slave):实际存储数据块的节点,执行数据库的读写操作SecondaryNameNode作用:四、常见问题① NameNode的启动过程?第一阶段:NameNode启动第二阶段:Secondary NameNode工作② 集群的安全模式?:只支持访问元数原创 2020-09-22 17:57:07 · 334 阅读 · 0 评论 -
【常用】HDFS的Shell(命令行客户端)操作
文章目录1、Hadoop集群管理脚本① 作用:② 使用范式:hadoop [-config confdir] COMMAND2、常用命令① hdfs创建目录\复制目录② hdfs上传文件(-put)和下载(-get/-copyToLocal),剪切(-moveFromLocal从本地剪切文件到HDFS\-moveToLocal 从HDFS剪切文件到本地)③ 追加append\合并下载-getmerge④ hdfs查看文件内容(cat)⑤ hdfs查看目录及目录下的文件⑥ hdfs删除文件/目录⑦ 获取更多原创 2020-09-22 00:05:24 · 283 阅读 · 0 评论 -
HIVE的四种排序:Sort By,Order By,Cluster By,Distrbute By的作用和区别
文章目录HIVE的四种排序一、order by二、sort by三、distribute by 和 sort by 一起使用四、cluster byHIVE的四种排序一、order byhive中的order by 跟传统的sql语言中的order by 作用是一样的,会对查询的结果做一次全局排序。所以说,只有Hive的sql中制定了order by 所有的数据都会到同一个reduce中进行处理(不管有多少个map,也不论文件分成了多少block,有且仅有一个reduce,这是order by在处特原创 2020-09-19 14:13:22 · 1419 阅读 · 0 评论 -
大数据【根】,【中枢神经】Yarn的job流程(一)
简述Yarn的诞生背景MapReduce第一个版本的功能随着技术的更迭,逐渐不能满足大型集群对于稳定性和高可用性的要求,缺点具体表现为:当集群包含的节点超过 4,000 个时(其中每个节点可能是多核的),就会表现出一定的不可预测性。其中一个最大的问题是级联故障,由于要尝试复制数据和重载活动的节点,所以一个故障会通过网络泛洪形式导致整个集群严重恶化....原创 2020-09-05 15:51:33 · 328 阅读 · 0 评论