Hadoop
SDUT_wdc
这个作者很懒,什么都没留下…
展开
-
HBase 学习笔记
1.HBase是一个高可靠、高性能、面向列、可伸缩的构建在HDFS上的分布式数据库2.HBase通过行键、列族、列限定符、时间戳来确定一个单元格3.传统行式存储用于处理事务性操作,列式存储主要用于数据分析型业务4.一个HBase表会被分成多个Regin,同一个Regin不会被到多个Regin服务器中5.访问HBase的时候,先去HBase系统表查找定位这条记录属于哪个Regin,然原创 2017-01-17 08:51:55 · 453 阅读 · 0 评论 -
Hive 学习笔记
1. Hive是一个基于Hadoop的数据仓库工具,它提供了简单的SQL查询功能 2.支持批量插入,不支持单条插入 3.它是将简单的SQL语句转换成MapReduce程序来执行,创建的表可存放在hdfs或HBase上 4.hive倾向于用来分析数据,它只提供查询功能,不支持更新数据; 5.hive通过与jobtracker保持通信来初始化MapReduce任务,hive原创 2017-01-16 20:40:53 · 387 阅读 · 0 评论 -
Hadoop集群完全分布式模式环境部署
Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色:Mas转载 2016-12-12 13:32:52 · 731 阅读 · 0 评论 -
简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景
简述:a) Hadoop基于分布式文件系统HDFS的分布式批处理计算框架。适用于数据量大,SPMD(单程序多数据)的应用。b) Spark基于内存计算的并行计算框架。适用于需要迭代多轮计算的应用。c) MPI基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD( 多程序多数据) ,开发复杂度高详细:1,Hadoop是原创 2016-05-06 20:17:21 · 3103 阅读 · 0 评论 -
基于Hadoop的K-means聚类算法的实现
K-means算法的MapReduce并行化实现1.K-means聚类算法的基本思路 假设把样本集分为K类,算法描述如下:(1).首先在数据集合中随机选取k个点作为k个星团的质心(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心(4)重复迭代第二步和第三步,直到质心原创 2016-05-04 16:33:33 · 4162 阅读 · 0 评论