
Big Data
BigMoM1573
淡泊名利
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Big Data>简答题
1.一个文件100M,上传到HDFS占用几个快?一个块128M,剩余的28M怎么办?事实上,128只是个数字,数据超过128M,便进行切分,如果没有超过128M,就不用切分,有多少算多少,不足128M的也是一个快。这个快的大小就是100M,没有剩余28M这个概念。2.大数据为什么这么快?与传统数据相比有什么不同点?a.传统数据纵向扩展,服务器数量不发生变化,配置越来越高,大数据横向扩展,配...原创 2019-11-10 17:31:01 · 613 阅读 · 0 评论 -
Big Data>HDFS讲义(7)
文章目录9、hdfs的HA以及Yarn的HA高可用HA服务的启动10、Hadoop Federation介绍Federation架构设计Federation示例配置9、hdfs的HA以及Yarn的HA高可用Namenode HA介绍Hadoop1.X版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题,出现了一堆针对...原创 2019-11-09 17:47:33 · 292 阅读 · 0 评论 -
Big Data>HDFS讲义(6)
文章目录8、hdfs其他功能介绍多个集群之间的数据拷贝Hadoop归档文件archivehdfs快照snapShot管理快照使用基本语法快照操作实际案例HDFS回收站8、hdfs其他功能介绍在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,Hadoop自带也有命令可以帮我们实现这个功能...原创 2019-11-09 17:30:43 · 187 阅读 · 0 评论 -
Big Data>HDFS讲义(5)
文章目录7.HDFS的javaAPI操作创建maven工程并导入jar包使用文件系统方式访问数据(掌握)获取FileSystem的几种方式递归遍历文件系统当中的所有文件官方提供的API直接遍历下载文件到本地hdfs上创建文件夹hdfs文件上传javaAPI基本操作HDFS权限问题以及伪造用户HDFS的小文件合并HDFS-Web界面介绍7.HDFS的javaAPI操作由于cdh版本的所有的软件涉...原创 2019-11-09 16:51:19 · 496 阅读 · 0 评论 -
Big Data>HDFS讲义(4)
6、HDFS新增节点与删除节点服役新数据节点需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们新的节点 第二步:修改mac地址以及IP地址...原创 2019-11-09 11:22:26 · 411 阅读 · 0 评论 -
Big Data>HDFS讲义(3)
5、Fsimage(记录文件系统的镜像的或者快照),Edits(记录用户操作日志文件)详解NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增...原创 2019-11-07 20:32:03 · 190 阅读 · 0 评论 -
Big Data>HDFS讲义(2)
文章目录3、HDFS的shell命令操作HDFS的特性HDFS缺点4、hdfs的高级使用命令HDFS文件限额配置数量限额空间大小限额HDFS安全模式HDFS的文件权限验证3、HDFS的shell命令操作1)基本语法具体命令 bin/hdfs dfs[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfs2)参数大全Usage: Hadoop...原创 2019-11-05 20:17:41 · 405 阅读 · 0 评论 -
Big Data>HDFS讲义(1)
文章目录1、 Hadoop的文件系统介绍hadoop 的组成部分HDFS分块存储HDFS副本存放机制Hadoop副本节点选择名字空间(NameSpace)Namenode 功能Datanode功能机架感知2、HDFS文件读写流程HDFS-文件写入流程(重点)HDFS-文件读取流程(重点)数据完整性掉线时限参数设置DataNode的目录结构Hadoop组成Hadoop HDFS:一个高可靠、...原创 2019-11-05 09:35:29 · 528 阅读 · 0 评论 -
Big Data>第三部分《Hadoop集群搭建》
1.CDH版本Hadoop重新编译2.一:大数据集群安装部署3. 二:CDH 分布式环境搭建4.Hadoop集群初体验5.MapReduce的jobHistory介绍原创 2019-11-04 09:51:52 · 591 阅读 · 1 评论 -
Big Data>第二部分《Hadoop详解》
Hadoop三大公司发型版本介绍1、免费开源版本apache:http://Hadoop.apache.org/优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dis...原创 2019-11-01 23:39:24 · 251 阅读 · 0 评论 -
Big Data>第一部分《大数据概述》
传统数据与大数据处理方式对比系统硬盘(100%完全独立,不要存储业务数据)大数据技术为什么快1、传统数据纵向扩展服务器数量不发生变化,配置越来越高(发生变化)大数据横向扩展配置不发生变化,服务器数量越来越多(发生变化)2 传统的方式资源(cpu/内存/硬盘)集中大数据方式资源(cpu/内存/硬盘)分布(前提:同等配置的前提下)3 传统数据备份方式单份备份大数据数据备份方式...原创 2019-11-01 23:08:14 · 310 阅读 · 0 评论 -
Big Data>大数据介绍&大数据项目流程介绍
什么是大数据?大数据 :指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据大数据的特点主要特点海量化(Volume)数据量从TB到PB级别多样化(Variety)数据类型复杂,超过80%的数据是非结构化的快速化(Velocity)数据量在持续增加(两位数的年增长率)数据的处理速度要求高高价值(Value)在海量多样数据的快速分析下能够发挥出...原创 2019-10-27 22:18:54 · 639 阅读 · 0 评论 -
Big Data>大数据基础知识
大数据基础知识内容概要什么是服务器?什么是RAID?什么是集群?什么是网络?什么是交换机、局域网?什么是网络拓扑、机架?网卡介绍高铁为什么快?什么是服务器?服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。由于服务器需要提供高可靠的服务,所以在处理能力、稳定性、可靠性、安全性、可扩展性...原创 2019-10-27 21:46:14 · 739 阅读 · 0 评论