大数据
中郎将
合抱之木,生于毫末
展开
-
大数据存储框架的更新和删除操作
在数据量非常大的情况下,进行更新和删除是非常耗时的,需要加载数据修改再写出,类似于hbase和kudu,hive支持更新和删除操作,了解下实现原理,也为相似业务场景提供思路 HBase: 在执行删除的时候,会插入一条删除数据,标记为delete,和时间戳,查询到时候如果标记删除并且最新,确认删除 更新的时候也插入跟新的数据,会有个新的时间戳,读取的时候读最新的时间数据 这样有个问题就是数据会不断增...原创 2019-11-12 15:27:09 · 439 阅读 · 1 评论 -
可以ping通,xshell连不上
检查虚拟机的IP是否和本机IP一样原创 2019-11-01 22:48:13 · 3223 阅读 · 0 评论 -
大数据存储基石HDFS
这篇文章主要介绍HDFS的概述、读写流程,常用的shell操作以及一些HDFS 2.X的新特性 HDFS(Hadoop distributed file system),通过目录树来定位文件,文件实际以块分布式存在各个节点 优点:通过副本容错,在廉价机上存储海量数据。 缺点:不能高效存储小文件(1、占用大量NameNode内存。2、寻址时间会超过读取时间),一个文件不允许多线程写入,数据只能追加不...原创 2018-12-23 17:26:29 · 194 阅读 · 1 评论 -
对分布式存储和并行计算的一点思考
分布式存储: 首先是文件在HDFS上面以128M块大小存储(3份),这三块是在不同节点的(机架感知),我觉的好处是容错还有当计算是这个节点资源不够可以去块所在的另一节点执行,不用拉取数据。 可以通过fs.getfileblocklocation()获取块位置 并行计算: 1、MR使用默认的输入格式,一个块就是一个切片,切片数就是并行度,就是MapTask个数,所有数据块同时计算,reduceTas...原创 2018-12-30 16:40:35 · 976 阅读 · 0 评论