大数据技术
JJJims
这个作者很懒,什么都没留下…
展开
-
第1章 HDFS概述
1.1 HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合原创 2020-09-06 21:25:20 · 166 阅读 · 0 评论 -
第4章 Hadoop运行模式
概述Hadoop运行模式包括:本地模式:不需要启用单独进程,直接可以运行,测试和开发时使用。伪分布式模式以及:等同于完全分布式,只有一个节点。完全分布式模式:多个节点一起运行。Hadoop官方网站:http://hadoop.apache.org/4.1 本地运营Hadoop 案例4.1.1 官方grep案例1)创建在hadoop-2.7.2文件下面创建一个input文件夹[root@hadoop132 hadoop-2.7.2]# mkdir input2)将hadoop的xml配原创 2020-08-29 14:46:07 · 466 阅读 · 0 评论 -
第3章 Hadoop运行环境搭建
3.1 虚拟机网络模式设置为NAT最后,重新启动系统。[root@localhost /]# sync[root@localhost /]# reboot3.2 修改为静态ip原创 2020-08-10 23:34:42 · 223 阅读 · 0 评论 -
第2章 从Hadoop框架讨论大数据生态
2.1 Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈2.2 Hadoop发展历史1)Lucene–Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎2)2001年年底成为apache基金会的一个子项目3)对于大数量的场景,L原创 2020-08-04 22:32:18 · 209 阅读 · 0 评论 -
第1章 大数据概论
1.1 大数据概念大数据(Big Data):指无法在一定时间范围内使用常规软件工具捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决:海量数据的存储、海量数据的分析计算问题。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB1Byte = 8bit1KB = 1024Byte1MB = 1024KB1GB = 1024MB1TB = 1024GB1P原创 2020-07-31 16:54:09 · 535 阅读 · 0 评论