自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 hive的知识总结

常用的语言 C C++ JAVA PHP NET C# RUBY GO Scale—spark(计算效率更高)scala+java hive的出现:1,只会sql的人也能处理大数据, 2 ,不写mapreduce,就可以处理大数据 关系型数据库—mysql orcal sqlserver—性能处理瓶颈 因为以上这些数据库,不能够大量的处理数据,所以我们才会用hive 来替换他; 非关系型数据库 r...

2019-06-19 23:17:40 135

原创 Zookeeper的知识点总结

hadoop的学习已经告一段落了,下面来我们来学习下一阶段的知识:Zookeeper 1,角色 状态 leader leading —继承人 follower following —跟从但是有想法的 follower observer...

2019-06-18 21:25:23 150

原创 总结:hadoop生态圈

1:common 2:hdfs----分布式存储(多节点协同工作) 2.1 角色— NN DN SNN 2.2 工作机制、 读写机制----block块(164M 2 128) 为了数据的安全—备份机制 为了增强传输效率----pipeline管道机制 2.3 NN工作太繁忙,为了而节省他的时间----SNN 只是热备,不能替代NN—把NN中的元数据备份到磁盘上(edits.log fsi...

2019-06-18 08:07:08 159

原创 Hadoop学习:WordCount程序的实现与总结

开篇语: 这几天开始学习Hadoop,花费了整整一天终于把伪分布式给搭好了,激动之情无法言表······ 搭好环境之后,按着书本的代码,实现了这个被誉为Hadoop中的HelloWorld的程序–WordCount,以此开启学习Hadoop的篇章。 本篇旨在总结WordCount程序的基本结构和工作原理,有关环境的搭建这块,网上有很多的教程,大家可以自行找谷歌或百度。 何为MapReduce: 在...

2019-06-15 07:00:53 627

原创 mapreduce的工作原理分析

分布式计算的思想 ------合久必分,分久必合(哈哈) map reducce input (输入) output(输出) MAP端的含义: 注意:假设HDFS的block大小为64M,采用TextI...

2019-06-14 15:31:25 123

原创 HADOOP与eclipse的搭建及相关的API的使用方法

首先 配置环境变量 1)我的电脑 – 属性 里面的环境变量 分别是用户变量和系统i变量:用户变量是针对不同用户的一个使用,切换用户之后新的用户可能无法继续使用,系统变量是针对整个电脑来进行使用的,所以我们要对系统变量进行设置; 系统变量 -点击新建 --把你当时解压之后又的文件的绝对路径粘贴过来,变量名叫做HADOOP_HOME 接着给你window下的用户修改名称为root,目的是和你lin...

2019-06-14 00:05:39 207

原创 关于伪分布式的搭建

配置免密登录 (1)配置免密登录 node01->node01 ssh-keygen -t rsa ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01 1、上传文件 ftp 使用命令rz-----yum install lrzsz -y 2、解压 tar -zxvf jdk 3、配置环境变量 export JAVA_HOME=/opt/softw...

2019-06-13 07:13:32 87

原创 linux常用命令

1重启网络服务 service network restart 2彻底删除用户 userdel -r 3查看网络状态 4查询网卡信息 ifconfig 你会看到如下图所示: 树状目录结构: 以下是对这些目录的解释: /bin: bin是Binary的缩写, 这个目录存放着最经常使用的命令。 /boot: 这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件。 /dev : ...

2019-06-12 18:39:57 74

原创 SecondaryNamenode的分析

NN(主节点)描述数据的数据 --内存里 为了保证元数据的安全—将内存中的数据存放到磁盘中----叫持久化 当我们的集群因断电等特殊原因产生问题的时候,问题解决,重新开机,会去磁盘上读取元数据,恢复到断电前的状态; NN不能进行持久化的原因 可以做:需求小,占用内存少,不影响计算效率 不可以做:NN本身工作已经很多,有可能在持久化的过程中宕机; 备注:SNN永远无法取代NN的位置,他只是NN的一个...

2019-06-12 00:04:14 134

原创 hdfs文件的存储

以block块的形式将大文件进行相应的存储 1* 64M 2*128M 文件线性切割成块:偏移量offset(byte) block分散存储在集群节点中 单一文件block大小一致,文件与文件可以不一致 block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数量 文件上传可以设置BLOCK大小和副本数 已上传的文件block副本数可以调整,大小不变 只支持一次写入多次读取 同一时刻只...

2019-06-11 00:30:34 404

原创 个人对大数据概念的理解(知识结构)

大数据的产生: 为了解决数据量过大的问题 1)垂直扩展 :增加自己的硬件设施 但设备终归有极限; 2)横向扩展 :由多个服务器所一台一台连接起来的扩展方式,没有瓶颈,可以无限扩展,简单廉价的服务器或者PC端就可以 大数据的起源(鼻祖):google 的三大论文 GFS -------产生 HDFS分布式文件系统(分布式的存储) MapReduce ---------分布式的...

2019-06-10 14:54:29 1487

原创 lunix入门培训课程

在/var下创建sh文件夹,shell脚本在文件夹中编写 1、脚本生成一个100以内的随机数,提示用户猜数字并将随即生成的数字显示 2、使用read提示用户猜数字 3、使用if判断用户猜数字的大小关系 猜对了 猜大了 猜小了 4、使用while循环输入 #!/bin/bash while [ 1 ] do echo “请输入100以内的随机数” read a b=$(( $RANDOM ...

2019-06-09 21:43:44 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除