netcccyun-CSDN博客

Spark Shuffle简介Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以shuffle性能...

2018-11-12 14:56:41 672

原创分布式的计算Spark

Spark简介什么是Spark？Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。Spark 相比 hadoop历史–...

2018-11-05 16:11:26 4097 2

原创基于JVM的编程语言Scala

Scala介绍首先Scala是一门基于JVM的编程语言，具有很好的兼容性和并发性。Scala六大特征Java和Scala可以无缝混编类型推测（自动推测类型）并发和分布式特质trait，特征（类似于java中interface和abstract结合，可以实现多继承）模式匹配（类似于java switch）高阶函数（包含两种：①函数的参数是函数②函数的返回是函数）Scala的安装与配...

2018-11-02 17:31:05 1356 2

原创构建数据仓库的工具Hive

Hive简介什么是Hivehive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive的架构（1）用户接口主要有三个：CLI，Cl...

2018-10-23 20:21:30 550

原创 YARN的搭建与测试

集群规划配置修改配置文件mapred-sitex.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value></property><-- 跨平台配置 --> <property> &a

2018-10-22 15:36:12 462

原创大数据MapReduce总结

MapReduce简介MapReduce定义：Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce主要思想：分久必合MapReduce两个阶段： Map端、Reduce端MapReduce核心思想：“相同”的key为一...

2018-10-16 20:06:25 1037

原创 HDFS客户端搭建与Java API操作HDFS

HDFS客户端搭建为什么不建议使用集群内操作？如果每一次上传文件都是选择某一台DN作为客户端，就会导致这个节点上的磁盘以及网络I0负载超过其他的节点，久而久之这个节点的磁盘以及网卡性能远远低于其他节点，从而会导致数据的倾斜问题。配置集群客户端的步骤：1、找一台新的服务器，这台服务器必须能够与集群通信2、将配置好的安装包原封不动的拷贝到新的服务器3、配置环境变量方便操作HDFS集群Ja...

2018-10-13 11:20:51 438

原创 HDFS高可用的完全分布式搭建流程

HDFS高可用的完全分布式设计架构图HDFS的高可用指的是HDFS持续对各类客户端提供读、写服务的能力，因为客户端对HDFS的读、写操作之前都要访问Namenode服务器，客户端只有从Namenode获取元数据之后才能继续进行读、写。所以HDFS的高可用的关键在于Namenode上的元数据持续可用。主NameNode对外提供服务，备NameNode同步主NameNode元数据，以待切换。所有...

2018-10-10 20:04:48 258

原创 HDFS基本操作命令

HDFS操作：上传文件hdfs dfs -put src… desthdfs dfs -copyFromlocal src… desthdfs dfs -moveFromLocal src… dest #将本地的文件移动到HDFS中创建新目录：hdfs dfs -mkdir /test级联创建hdfs dfs -mkdir -p /test /zfg往文件中追加信息：...

2018-10-10 19:58:47 368

原创 HDFS伪分布式搭建过程记录

搭建HDFS用的CentOS6.5 minimal，全部命令行操作的。安装好操作系统之后需要先配置网络：cd /etc/sysconfig/network-scripts/vi ifcfg-eth0service network restart修改主机名：vi /etc/hostnamenode01修改hosts：vi /etc/hosts192.168.128.128 ...

2018-10-09 20:55:15 141

原创大数据HDFS总结

HDFS：HDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储文件。HDFS Block：HDFS上的文件被划分为块大小的多个分块，作为独立的存储单元，称为数据块。HDFS的三个节点：Namenode：用来管理HDFS的元数据。Datanode：文件系统的工作节点，负责存储元数据。Secondary Nameno...

2018-10-09 20:39:08 1080

原创第一篇博客

这是我的第一篇博客。此博客用于撰写大数据相关内容学习总结。欢迎访问我的资源分享博客：缤纷彩虹天地 http://blog.cccyun.cc/

2018-10-09 09:58:16 181

KodExplorer去除统计与检查更新代码补丁

补丁修改内容： 1.去除每个页面都有的统计上报代码 2.去除前端自动检测更新代码 3.去除版权校验代码，可任意修改页面版权不会出现付费提示。使用方法： 1.将 clean.php 上传到KodExplorer根目录 2.在浏览器访问 /clean.php 3.删除该文件 4.如果还没生效，按Ctrl+F5刷新缓存即可

2022-03-03

心挂Q v3.4破解优化版

心挂Q v3.4破解优化版以v3.4_build067(2014年6月25日)最新版破解制作，完美破解了官方的授权机制，去除后门。破解版优化内容： 1.取消一切与官方服务器的连接。 2.取消了授权文件的检测。 3.去除了部分删除文件的后门。 4.去除了安装过程中授权码的输入框。 5.取消了安装过程中强制输入“灯璐”平台的信息。 6.去除了首页的“灯璐”链接。

2014-08-06

瞬间拔盘.exe

好不容易下载并安装完一款游戏，正想淋漓尽致的放松下，双击游戏却启动失败，提示“找不到d3dx9_32.dll”或“d3dx9_32.dll缺失”或“没有找到d3dx9_32.dll”或“d3dx9_32.dll错误”。下载了网络上一些去广告绿色版的迅雷解压后运行提示“应用程序或dll c:\windows\system32\mfc71u.dll为无效的windows映像，请再检测一遍您的安装盘”导致根本用不。这种烦人的事情以后碰到再也不会束手无策了，独木成林dll文件智能修复可以帮您轻松解决此类问题。

2012-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

缤纷彩虹天地

原创 Spark高可用集群搭建

原创 Spark之Shuffle机制和原理