分布式数据
了解相关的领域,培养自己的兴趣,
奔跑着的国风
为了梦想,一切都是值得的!!!加油吧,小伙伴们!!!
展开
-
分布式算法之取模算法的缺陷
分布式算法之取模算法的缺陷:假设有8台服务器,运行中,突然down一台,则求余的底数变成7,后果:key:0%8 = 0, key:0%7 = 0 hits....key:6%8 = 6, key:6%7 = 6 hitskey:9%8 = 1, key:9%7 = 2 miss....key:55%8 = 7, key:55%7 = 6 miss一般的,原创 2016-09-04 11:13:13 · 1106 阅读 · 0 评论 -
Hadoop--08--WordCount
import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import转载 2016-07-29 21:44:22 · 650 阅读 · 0 评论 -
Hadoop--07--MapReduce高级编程
. Changing MapReduce jobs 1.1 Chaining MapReduce jobs in a sequence MapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的subtask,然后每个subtask通过hadoop中的job运行完成,然后教案subtask的结果收集起来,完成这个复杂的task。转载 2016-07-21 09:29:38 · 2675 阅读 · 0 评论 -
Hadoop--06--MapReduce编程基础
. WordCount示例及MapReduce程序框架 首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上,这里转载 2016-07-20 20:02:20 · 1554 阅读 · 0 评论 -
Hadoop--05--运行WordCount
1、 启动Hadoop:Start-all.sh2、 创建file 文件夹,并随便写些内容Mkdir /hadoop/test.txt3、 在HDFS上创建输入文件夹目录 input :Hadoop fs –put /hadoop/test.txt/input4、 Hadoop自带的运行 wordcount例子的 jar 包:hadoop-mapreduce-e原创 2016-07-19 21:20:55 · 1347 阅读 · 0 评论 -
Hadoop--04--使用java api操作
1. 概述 2. 文件操作2.1 上传本地文件到hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4 读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件 4. 参考资料接代码下载 . 概述 hadoop中关于文件操作类基本转载 2016-07-19 08:49:35 · 1160 阅读 · 0 评论 -
Hadoop常用命令(三)
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的原创 2016-07-18 22:10:49 · 1931 阅读 · 2 评论 -
深入Hadoop HDFS(二)
1. hdfs架构简介1.1 hdfs架构挑战1.2 架构简介1.3 文件系统命名空间File System Namespace1.4 数据复制1.5 元数据持久化1.6 信息交换协议 2. hdfs数据可访问性2.1 web interface2.2 shell command. hdfs架构简介 1.1 hdfs架构挑战h转载 2016-07-18 13:18:16 · 1026 阅读 · 0 评论 -
hive文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plain copy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t转载 2016-07-16 15:54:36 · 1554 阅读 · 0 评论 -
Linux:MySQL新建用户,授权,删除用户,修改密码
1.新建用户。 //登录MYSQL @>mysql -u root -p @>密码 //创建用户 mysql> insert into mysql.user(Host,User,Password) values("localhost","phplamp",password("1234")); //刷新系统权限表 mysql>flush privileges转载 2016-07-06 22:03:04 · 6974 阅读 · 0 评论 -
ubuntu14.04下Hadoop2.6.0+Hive1.1.1安装
1.Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式原创 2016-07-06 21:57:23 · 3547 阅读 · 0 评论 -
ubuntu14.04下hadoop2.6.0安装
1. 下载ubuntu14.04 i386地址:http://old-releases.ubuntu.com/releases/14.04.1/2. 安装JDK地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.1.解压安装我们把JDK安装到这个路径原创 2016-07-05 20:16:28 · 1784 阅读 · 0 评论 -
分布式设计与开发(二)------几种必须了解的分布式算法
分布式设计与开发中有些疑难问题必须借助一些算法才能解决,比如分布式环境一致性问题,感觉以下分布式算法是必须了解的(随着学习深入有待添加):Paxos算法一致性Hash算法Paxos算法1)问题描述分布式中有这么一个疑难问题,客户端向一个分布式集群的服务端发出一系列更新数据的消息,由于分布式集群中的各个服务端节点是互为同步数据的,所以运行完客户端这系列消息指令后各转载 2016-06-21 20:04:45 · 524 阅读 · 0 评论 -
分布式设计与开发(一)------宏观概述
在IDF05(Intel Developer Forum 2005)上,Intel首席执行官Craig Barrett就取消4GHz芯片计划一事,半开玩笑当众单膝下跪致歉,给广大软件开发者一个明显的信号,单纯依靠垂直提升硬件性能来提高系统性能的时代已结束,分布式开发的时代实际上早已悄悄地成为了时代的主流,吵得很热的云计算实际上只是包装在分布式之外的商业概念,很多开发者(包括我)都想加入研究云计算这转载 2016-06-21 17:54:17 · 3325 阅读 · 0 评论 -
负载均衡服务器
负载均衡服务器(load-balancing server)是进行负载分配的服务器。通过负载均衡服务器,将服务请求均衡分配到实际执行的服务中,从而保证整个系统的响应速度。 定义"负载均衡服务器"是本系统的控制服务器,所有用户的请求都首先到此服务器,然后由此服务器根据各个实际处理服务器状态将请求具体分配到某个实际处理服务器中,对外公开的域名与IP地址都是这台服务器。负载均衡控制转载 2016-06-21 20:34:35 · 661 阅读 · 0 评论 -
Hadoop是什么?
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集转载 2016-07-03 12:07:46 · 753 阅读 · 0 评论 -
Hive是什么?
Hive 定义Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop上的数据仓库基础构架。它提供了转载 2016-07-03 12:10:10 · 845 阅读 · 0 评论