大数据
文章平均质量分 86
下一秒,待续
下一秒
展开
-
Hadoop之HBase基本简介
目录1.HBase的基本概念2.HBase的工作流程1.HBase的基本概念1.1基本概念HBase运行在HDFS上,所以HBase中的数据以多副本形式存放,数据也服从分布式存放,数据的恢复也可以得到保障。 HBase支持横向扩展,这就意味着如果现有服务器硬件性能出现瓶颈只需要在现有的正在运行的集群中添加新的机器节点即可。 HBase是面向列存储的非关系型数据库,每个列都单独存储,所以在HBase中列是连续存储的,而行不是,区别于关系型数据库。 HBase不支持事务,适合结构化数据原创 2020-11-07 12:51:38 · 4156 阅读 · 1 评论 -
Hadoop之MapReduce基本简介
五、基于数据仓库的Hive数据仓库:汇聚了来自各个维度的数据(日志的,数据库的,爬虫的....),主要用于数据的查询,不可更新如果进行了修改会进行数据的备份。什么是Hive:专门对大数据进行离线的分析使用的工具适用于数据分析,特征处理等任务,它的底层是把HQL转化为MapReduce程序,并且数据存储在HDFS上,程序运行在yarn上。(经常是深夜的定时任务,处理完后自动存放入数据库中。)ps:所以然,Hive主要是基于数据的查询而不是更新,否则你的数据仓库由于数据备份的问题,会变得...原创 2020-11-03 23:38:34 · 2476 阅读 · 1 评论 -
Hadoop之基本环境搭建
1.Hadoop的本地运行模式1.1克隆虚拟机!1.2修改主机名!sudo vim /etc/hostname ,重启reboot 1.3网络节点进行通信!sduo vim /etc/hosts 192.168.91.139 master1.4创建文件夹:sudo chown pyvip:pyvip model/ software/ #赋予用户文件权限tar -zxvf jdk... -C /opt/model/ #解压文件1.5安装jdk:sudo v...原创 2020-11-02 17:29:44 · 299 阅读 · 0 评论 -
算法之海量数据处理
1.散列分治或MapReduce这种题目很多,大多都相似一通,针对数据特别多的情况下,一般可以选择MapReduce或者散列分治这两种方式其实思想很相似的只有些许不同;针对数据量不大的情况下可是直接加载进内存来的可以使用Trie树,红黑树这一套,hash表都可以使用。寻找共同的URL给定两个a和b文件,各存放50亿个URL,每个URL占64字节,内存限制4GB,请找出a和b文件中共同的...原创 2019-10-20 00:26:41 · 218 阅读 · 0 评论 -
Hadoop之Spark基本简介
一、Spark与Hadoop的区别任务背景:完成最终的任务需要分为若干个有依赖关系的子任务连接成一个DAG(有向无环)图。Hadoop:由于完成这个图任务有多个map-reduce子任务,每个子任务都要把输出的结果存储起来(默认是三份)以供下一个任务的读取,而且每个子任务map-reduce的中间结果也会把数据存储在本地。ps:在ML任务下效率很不理想,大量的磁盘io和网络io拉低...原创 2019-05-25 16:01:14 · 634 阅读 · 0 评论 -
大数据和Hadoop的简要概述
一、大数据简史过程一:Hadoop思想之源:2003年Google的三驾马车(未开源) 问题一:大量的网页怎么存储(运用冗余防止数据丢失) 提出:分布式文件系统GFS 问题二:Page-Rank的计算问题(单台机器不够算) 分布式计算框架Map-Reduce 问题三:如何快速查到数据(响应时间仅为0.01秒...原创 2019-05-24 20:18:00 · 205 阅读 · 0 评论 -
Hadoop之HDFS基本简介
1、HDFS概念HDFS:它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。2.、HDFS优缺点优点:1)高容错性:数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后...原创 2019-05-08 22:35:50 · 345 阅读 · 0 评论