- 博客(13)
- 资源 (3)
- 收藏
- 关注
原创 Spark之Shuffle机制和原理
Spark Shuffle简介Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能...
2018-11-12 14:56:41 672
原创 分布式的计算Spark
Spark简介什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。Spark 相比 hadoop历史–...
2018-11-05 16:11:26 4097 2
原创 基于JVM的编程语言Scala
Scala介绍首先Scala是一门基于JVM的编程语言,具有很好的兼容性和并发性。Scala六大特征Java和Scala可以无缝混编类型推测(自动推测类型)并发和分布式特质trait,特征(类似于java中interface和abstract结合,可以实现多继承)模式匹配(类似于java switch)高阶函数(包含两种:①函数的参数是函数②函数的返回是函数)Scala的安装与配...
2018-11-02 17:31:05 1356 2
原创 构建数据仓库的工具Hive
Hive简介什么是Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive的架构(1)用户接口主要有三个:CLI,Cl...
2018-10-23 20:21:30 550
原创 YARN的搭建与测试
集群规划配置修改配置文件mapred-sitex.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value></property><-- 跨平台配置 --> <property> &a
2018-10-22 15:36:12 462
原创 大数据MapReduce总结
MapReduce简介MapReduce定义:Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce主要思想: 分久必合MapReduce两个阶段: Map端、Reduce端MapReduce核心思想:“相同”的key为一...
2018-10-16 20:06:25 1037
原创 HDFS客户端搭建与Java API操作HDFS
HDFS客户端搭建为什么不建议使用集群内操作?如果每一次上传文件都是选择某一台DN作为客户端,就会导致这个节点上的磁盘以及网络I0负载超过其他的节点,久而久之这个节点的磁盘以及网卡性能远远低于其他节点,从而会导致数据的倾斜问题。配置集群客户端的步骤:1、找一台新的服务器,这台服务器必须能够与集群通信2、将配置好的安装包原封不动的拷贝到新的服务器3、配置环境变量方便操作HDFS集群Ja...
2018-10-13 11:20:51 438
原创 HDFS高可用的完全分布式搭建流程
HDFS高可用的完全分布式设计架构图HDFS的高可用指的是HDFS持续对各类客户端提供读、写服务的能力,因为客户端对HDFS的读、写操作之前都要访问Namenode服务器,客户端只有从Namenode获取元数据之后才能继续进行读、写。所以HDFS的高可用的关键在于Namenode上的元数据持续可用。主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换。所有...
2018-10-10 20:04:48 258
原创 HDFS基本操作命令
HDFS操作:上传文件hdfs dfs -put src… desthdfs dfs -copyFromlocal src… desthdfs dfs -moveFromLocal src… dest #将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test级联创建hdfs dfs -mkdir -p /test /zfg往文件中追加信息:...
2018-10-10 19:58:47 368
原创 HDFS伪分布式搭建过程记录
搭建HDFS用的CentOS6.5 minimal,全部命令行操作的。安装好操作系统之后需要先配置网络:cd /etc/sysconfig/network-scripts/vi ifcfg-eth0service network restart修改主机名:vi /etc/hostnamenode01修改hosts:vi /etc/hosts192.168.128.128 ...
2018-10-09 20:55:15 141
原创 大数据HDFS总结
HDFS:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储文件。HDFS Block:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块。HDFS的三个节点:Namenode:用来管理HDFS的元数据。Datanode:文件系统的工作节点,负责存储元数据。Secondary Nameno...
2018-10-09 20:39:08 1080
原创 第一篇博客
这是我的第一篇博客。此博客用于撰写大数据相关内容学习总结。欢迎访问我的资源分享博客:缤纷彩虹天地 http://blog.cccyun.cc/
2018-10-09 09:58:16 181
KodExplorer去除统计与检查更新代码补丁
2022-03-03
心挂Q v3.4破解优化版
2014-08-06
瞬间拔盘.exe
2012-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人