大数据类
文章平均质量分 72
MingYueZh
科研狗一枚
展开
-
Spark基础概念(1)
Google的MapReduce,展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算,比如交互式计算和流式计算,他不适合。统一大数据处理框架Spark,提出了RDD概念(一种新的抽象的弹性数据集),某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性:即在并行计算的各个阶段进行有效的数据共享,这就是RDD的本质。容错方式:MapReduce是将计算构建成为一个有...原创 2018-03-31 22:05:55 · 208 阅读 · 0 评论 -
Spark基础概念(2)
val sc=new SparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar") //创建操作:SparkContext负责创建Spark上下文环境val file=sc.textFile("hdfs://localhost:9000/.../Log") //从HDFS中读取文件v...原创 2018-04-01 20:19:55 · 166 阅读 · 0 评论 -
Eclipse 远程连接 服务器上的HBase
前提:我们的HADOOP和HBase实在远程服务器上搭建的,各个子节点是不能被远程访问,只有一个外网IP。所以, 只能将Java程序导出jar包在服务器主节点运行。Eclipse:将HBase的lib所有jar包导入该工程下并新建lib文件夹,最后全部Bulid Path-->Add To Build Path实例代码:import org.apache.hadoop.conf.Config...原创 2018-04-19 19:32:37 · 1377 阅读 · 0 评论 -
HBase过滤器
过滤器就是对数据库获取的数据进行过滤,将符合条件的数据返回客户端,从而减少从region服务器向客户端发送的数据,从而减少数据传输,提高效率。所有的过滤器都要实现Filter接口。HBase同时还提供了FilterBase抽象类,它提供了Filter接口的默认实现。而在HBase提供的过滤器中,也主要分为几种过滤器:比较过滤器、专用过滤器和扩展过滤器。过滤器的组成:主要有过滤器本身、比较器和比较运...原创 2018-06-29 11:04:32 · 395 阅读 · 0 评论 -
B+和LSM的区别
B+树(主要点)非叶子结点的子树指针与关键字个数相同; 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树 ;为所有叶子结点增加一个链指针; 所有关键字都在叶子结点出现;b+树在查询过程中应该是不会慢的,但如果数据插入比较无序的时候,比如先插入5 ,然后10000,然后3,然后800, 这样跨度很大的数据的时候,就需要先“找到这个数据应该被插入的位置”,然后插入数据。...原创 2018-06-28 11:12:10 · 9872 阅读 · 0 评论 -
HBase的Region定位
Region定位:系统如何找到某个row key (或者某个 row key range)所在的region关于Region的查找,早期的设计(0.96.0)之前是被称之为三层查询架构,如下图所示:Region:就是要查找的数据所在的Region.META.:是一张元数据表,记录了用户表的Region信息以及RegionServer的服务器地址,.META.可以有多个regoin。.META.表中...原创 2018-06-28 16:20:57 · 15126 阅读 · 4 评论