大数据
文章平均质量分 59
欧阳子卿
每天叫醒你的不仅是闹钟,更是梦想!
展开
-
Hive的内部表和外部表以及两者的区别
1、建表语句1.1 内部表平时创建的普通表为内部表create table `test_internal` (id string comment 'ID', name string comment '名字')comment '测试内部表'ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;外部表带external关键字的为外部表cr...原创 2018-12-28 17:27:05 · 326 阅读 · 0 评论 -
HDFS常用命令
(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls: 显示目录信息hadoop fs -ls /(3)-mkdir:在hdfs上创建目录hadoop fs -mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshadoop fs - moveFromLocal /home/hado...原创 2019-02-15 09:48:52 · 254 阅读 · 0 评论 -
HDFS读写数据流程
HDFS写数据流程:1.客户端向nd发送文件上传请求 nd检查目录文件是否存在 检查父目录是否存在2.nd向客户端返回是否上传响应3.客户端向nd请求 上传到那个节点(dn)4.nd响应 dn1 dn2 dn3可以上传5.客户端向dn1发送请求 dn1–>dn2–>dn3 建立文件传输管道6.dn1 dn2 dn3 向客户端逐级应答7.客户端将block文件以pac...原创 2019-02-15 10:27:40 · 221 阅读 · 0 评论 -
如果某个maptask运行失败怎么处理
常见容错场景分析1.1作业某个任务阻塞了,长时间占用资源不释放1.2在MapTask任务运行完毕,ReduceTask运行过程中,某个MapTask节点挂了,或者某个MapTask结果存放的那磁盘坏掉了1.任务阻塞,长时间占用资源不释放这种问题通常是由于程序bug,数据特性造成的,会让程序阻塞,任务运行停滞不前。在我们表面上看来是任务停滞不前。这种问题经常发生,任务长时间占用着资源不释放...原创 2019-02-15 11:01:39 · 545 阅读 · 0 评论 -
大数据处理流程
大数据处理流程1. 数据处理流程网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:1.1 数据采集 数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过...原创 2019-02-21 16:53:13 · 23929 阅读 · 0 评论 -
shuffle原理
shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。 一、Map端的shuffleMap端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。在spill写入之前,会先进行二次排序,首先根据数据所属...原创 2019-02-22 16:06:19 · 852 阅读 · 0 评论 -
分布式文件存储系统架构和原理
架构 如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode:是一个小弟,分担大哥namenode的一部分工作量;是NameNode的...原创 2019-02-22 16:33:19 · 2775 阅读 · 1 评论 -
kafka集群设置shell脚本一键启动和关闭
前言:最近在做Spark, 做到安装kafka, 安装完想配置一键启动和关闭, 编写启动的脚本执行没问题, 关闭的时候遇到了一些问题 ,上网查资料也只能解决一半, 有些博客写的关闭脚本拿过来用执行不能成功,让同事看好久测试好久也没找出来,最后自己重写一遍就可以了。下面跟大家分享一下经验吧~1.kafka 的config目录下 kafka-server-stop.sh 有些问题,需要先修改一下...原创 2019-01-15 21:32:43 · 6157 阅读 · 3 评论 -
Spark资源调度和任务调度流程
spark运行架构Spark资源调度和任务调度的流程:1、启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。2、当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGScheduler和TaskScheduler。3、DA...原创 2019-01-14 21:22:12 · 1190 阅读 · 1 评论 -
RDD的五大属性
- 1) A list of partitions一个分区列表,一个rdd有多个分区,后期spark任务计算是以分区为单位,一个分区就对应上一个task线程。 通过val rdd1=sc.textFile(文件) 如果这个文件大小的block个数小于等于2,它产生的rdd的分区数就是2 如果这个文件大小的block个数大于2,它产生的rdd的分区数跟文件的block相同 - ...原创 2019-01-14 20:51:16 · 4491 阅读 · 1 评论 -
数据库与数据仓库的区别
数据库与数据仓库的区别其实就是 OLTP 与 OLAP 的区别。 操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等...原创 2018-12-29 21:25:57 · 1433 阅读 · 0 评论 -
Zookeeper集群设置shell脚本一键启动和关闭
版权声明:本文为博主原创文章,转正请注明出处。 https://blog.csdn.net/OYziqing </div>Zookeeper集群设置shell脚本一键启动准备:集群部署规划:配置了主机名、映射主机时间同步关闭防火墙配置环境变量安装了zookee原创 2019-01-10 19:39:38 · 2648 阅读 · 0 评论 -
Spark-Map和MapPartition的区别
在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别:map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一...原创 2019-01-11 15:22:13 · 1621 阅读 · 0 评论 -
cache/persist/checkpoint区别
cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache(): this.type = persist()说明是cache()调用了persist(), 想要知道二者的不同还需要看一下persist函数:/*...原创 2019-01-11 15:33:51 · 674 阅读 · 0 评论 -
hive中的窗口函数
本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数....原创 2019-01-03 09:25:27 · 279 阅读 · 0 评论 -
Azkaban
转自:https://blog.csdn.net/clypm/article/details/790768011. Azkaban是什么?Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则...转载 2019-01-03 09:37:07 · 2602 阅读 · 0 评论 -
MapReduce核心之shuffle
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shuffle的不同阶段。shuffle阶段又可以分为Map端的shuffle和Reduce端的shuff...原创 2019-01-03 11:30:53 · 358 阅读 · 0 评论 -
Hive基础知识
从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型,也就是MapReduce,其...转载 2019-08-23 19:07:00 · 525 阅读 · 0 评论