自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (3)
  • 收藏
  • 关注

原创 Spark高可用集群搭建

未完成

2018-11-12 15:08:24 274

原创 Spark之Shuffle机制和原理

Spark Shuffle简介Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能...

2018-11-12 14:56:41 661

原创 分布式的计算Spark

Spark简介什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。Spark 相比 hadoop历史–...

2018-11-05 16:11:26 4081 2

原创 基于JVM的编程语言Scala

Scala介绍首先Scala是一门基于JVM的编程语言,具有很好的兼容性和并发性。Scala六大特征Java和Scala可以无缝混编类型推测(自动推测类型)并发和分布式特质trait,特征(类似于java中interface和abstract结合,可以实现多继承)模式匹配(类似于java switch)高阶函数(包含两种:①函数的参数是函数②函数的返回是函数)Scala的安装与配...

2018-11-02 17:31:05 1346 2

原创 构建数据仓库的工具Hive

Hive简介什么是Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive的架构(1)用户接口主要有三个:CLI,Cl...

2018-10-23 20:21:30 540

原创 YARN的搭建与测试

集群规划配置修改配置文件mapred-sitex.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value></property><-- 跨平台配置 --> <property> &a

2018-10-22 15:36:12 428

原创 大数据MapReduce总结

MapReduce简介MapReduce定义:Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce主要思想: 分久必合MapReduce两个阶段: Map端、Reduce端MapReduce核心思想:“相同”的key为一...

2018-10-16 20:06:25 1012

原创 HDFS客户端搭建与Java API操作HDFS

HDFS客户端搭建为什么不建议使用集群内操作?如果每一次上传文件都是选择某一台DN作为客户端,就会导致这个节点上的磁盘以及网络I0负载超过其他的节点,久而久之这个节点的磁盘以及网卡性能远远低于其他节点,从而会导致数据的倾斜问题。配置集群客户端的步骤:1、找一台新的服务器,这台服务器必须能够与集群通信2、将配置好的安装包原封不动的拷贝到新的服务器3、配置环境变量方便操作HDFS集群Ja...

2018-10-13 11:20:51 427

原创 HDFS高可用的完全分布式搭建流程

HDFS高可用的完全分布式设计架构图HDFS的高可用指的是HDFS持续对各类客户端提供读、写服务的能力,因为客户端对HDFS的读、写操作之前都要访问Namenode服务器,客户端只有从Namenode获取元数据之后才能继续进行读、写。所以HDFS的高可用的关键在于Namenode上的元数据持续可用。主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换。所有...

2018-10-10 20:04:48 245

原创 HDFS基本操作命令

HDFS操作:上传文件hdfs dfs -put src… desthdfs dfs -copyFromlocal src… desthdfs dfs -moveFromLocal src… dest #将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test级联创建hdfs dfs -mkdir -p /test /zfg往文件中追加信息:...

2018-10-10 19:58:47 357

原创 HDFS伪分布式搭建过程记录

搭建HDFS用的CentOS6.5 minimal,全部命令行操作的。安装好操作系统之后需要先配置网络:cd /etc/sysconfig/network-scripts/vi ifcfg-eth0service network restart修改主机名:vi /etc/hostnamenode01修改hosts:vi /etc/hosts192.168.128.128 ...

2018-10-09 20:55:15 128

原创 大数据HDFS总结

HDFS:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储文件。HDFS Block:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块。HDFS的三个节点:Namenode:用来管理HDFS的元数据。Datanode:文件系统的工作节点,负责存储元数据。Secondary Nameno...

2018-10-09 20:39:08 1070

原创 第一篇博客

这是我的第一篇博客。此博客用于撰写大数据相关内容学习总结。欢迎访问我的资源分享博客:缤纷彩虹天地 http://blog.cccyun.cc/

2018-10-09 09:58:16 169

KodExplorer去除统计与检查更新代码补丁

补丁修改内容: 1.去除每个页面都有的统计上报代码 2.去除前端自动检测更新代码 3.去除版权校验代码,可任意修改页面版权不会出现付费提示。 使用方法: 1.将 clean.php 上传到KodExplorer根目录 2.在浏览器访问 /clean.php 3.删除该文件 4.如果还没生效,按Ctrl+F5刷新缓存即可

2022-03-03

心挂Q v3.4破解优化版

心挂Q v3.4破解优化版以v3.4_build067(2014年6月25日)最新版破解制作,完美破解了官方的授权机制,去除后门。 破解版优化内容: 1.取消一切与官方服务器的连接。 2.取消了授权文件的检测。 3.去除了部分删除文件的后门。 4.去除了安装过程中授权码的输入框。 5.取消了安装过程中强制输入“灯璐”平台的信息。 6.去除了首页的“灯璐”链接。

2014-08-06

瞬间拔盘.exe

好不容易下载并安装完一款游戏,正想淋漓尽致的放松下,双击游戏却启动失败,提示“找不到d3dx9_32.dll”或“d3dx9_32.dll缺失”或“没有找到d3dx9_32.dll”或“d3dx9_32.dll错误”。下载了网络上一些去广告绿色版的迅雷解压后运行提示“应用程序或dll c:\windows\system32\mfc71u.dll为无效的windows映像,请再检测一遍您的安装盘”导致根本用不。这种烦人的事情以后碰到再也不会束手无策了,独木成林dll文件智能修复可以帮您轻松解决此类问题。

2012-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除