自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 hadoop02--大数据简介&hadoop简介和伪分布式、完全分布式集群搭建

二:大数据简介 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。 数据的分类 从结构上可以分为 - 结构化数据:如:二维表 - 半结构化数据:如:xml、html、css - 非结构数据:如:图片、音频、视频等 数据的来源 ...

2018-07-14 15:15:28 709 4

原创 hadoop--04--HDFS设计思想&主要框架&常用命令

hdfs:hadoop distributed file system分布式文件系统 一、设计思想 1.分块存储 举个例子,如有有100T文件,存在3个节点,怎么存?100T存在一个节点上吗?直接存储在一台机器上 合理吗?不合理!负载不均衡。我们可以将100T分成多个部分进行存储,分块存储。 每个部分(块)应该分很多合适?1T,如果文件只有2T,分成2个块,还是负载不均衡! 如果...

2018-07-14 11:54:43 441 2

原创 hadoop--03--集群搭建常见问题&集群安装的五种模式

一:搭建hadoop常见问题 查看集群启动日志 存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs ,比如我的在:/home/hadoop/apps/hadoop-2.7.6/logs 日志文件名字含义: hadoop(进程归属)-hadoop(用户名)-datanode(进程名)-hadoop01(节点).log start-dfs.sh获取start...

2018-07-14 11:54:19 348

原创 hadoop--01--hadoop的三个面试题

一:三个面试题 面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。 如果是小文件 1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数) 2)循环遍历map集合,取出value最大的值 大文件情况 map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法...

2018-07-14 11:53:37 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除