Lewis.Lee-CSDN博客

原创 hive的知识总结

常用的语言 C C++ JAVA PHP NET C# RUBY GO Scale—spark(计算效率更高)scala+java hive的出现：1，只会sql的人也能处理大数据, 2 ，不写mapreduce，就可以处理大数据关系型数据库—mysql orcal sqlserver—性能处理瓶颈因为以上这些数据库，不能够大量的处理数据，所以我们才会用hive 来替换他；非关系型数据库 r...

2019-06-19 23:17:40 143

原创 Zookeeper的知识点总结

hadoop的学习已经告一段落了，下面来我们来学习下一阶段的知识：Zookeeper 1,角色状态 leader leading —继承人 follower following —跟从但是有想法的 follower observer...

2019-06-18 21:25:23 157

原创总结：hadoop生态圈

1：common 2:hdfs----分布式存储（多节点协同工作) 2.1 角色— NN DN SNN 2.2 工作机制、读写机制----block块（164M 2 128）为了数据的安全—备份机制为了增强传输效率----pipeline管道机制 2.3 NN工作太繁忙，为了而节省他的时间----SNN 只是热备，不能替代NN—把NN中的元数据备份到磁盘上（edits.log fsi...

2019-06-18 08:07:08 165

原创 Hadoop学习:WordCount程序的实现与总结

开篇语：这几天开始学习Hadoop，花费了整整一天终于把伪分布式给搭好了，激动之情无法言表······ 搭好环境之后，按着书本的代码，实现了这个被誉为Hadoop中的HelloWorld的程序–WordCount，以此开启学习Hadoop的篇章。本篇旨在总结WordCount程序的基本结构和工作原理，有关环境的搭建这块，网上有很多的教程，大家可以自行找谷歌或百度。何为MapReduce: 在...

2019-06-15 07:00:53 635

原创 mapreduce的工作原理分析

分布式计算的思想 ------合久必分，分久必合（哈哈） map reducce input (输入) output（输出） MAP端的含义：注意：假设HDFS的block大小为64M，采用TextI...

2019-06-14 15:31:25 129

原创 HADOOP与eclipse的搭建及相关的API的使用方法

首先配置环境变量 1）我的电脑 – 属性里面的环境变量分别是用户变量和系统i变量：用户变量是针对不同用户的一个使用，切换用户之后新的用户可能无法继续使用，系统变量是针对整个电脑来进行使用的，所以我们要对系统变量进行设置；系统变量 -点击新建 --把你当时解压之后又的文件的绝对路径粘贴过来，变量名叫做HADOOP_HOME 接着给你window下的用户修改名称为root，目的是和你lin...

2019-06-14 00:05:39 212

原创关于伪分布式的搭建

配置免密登录 (1)配置免密登录 node01->node01 ssh-keygen -t rsa ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01 1、上传文件 ftp 使用命令rz-----yum install lrzsz -y 2、解压 tar -zxvf jdk 3、配置环境变量 export JAVA_HOME=/opt/softw...

2019-06-13 07:13:32 95

原创 linux常用命令

1重启网络服务 service network restart 2彻底删除用户 userdel -r 3查看网络状态 4查询网卡信息 ifconfig 你会看到如下图所示: 树状目录结构：以下是对这些目录的解释： /bin： bin是Binary的缩写, 这个目录存放着最经常使用的命令。 /boot：这里存放的是启动Linux时使用的一些核心文件，包括一些连接文件以及镜像文件。 /dev ： ...

2019-06-12 18:39:57 81

原创 SecondaryNamenode的分析

NN（主节点）描述数据的数据 --内存里为了保证元数据的安全—将内存中的数据存放到磁盘中----叫持久化当我们的集群因断电等特殊原因产生问题的时候，问题解决，重新开机，会去磁盘上读取元数据，恢复到断电前的状态； NN不能进行持久化的原因可以做：需求小，占用内存少，不影响计算效率不可以做：NN本身工作已经很多，有可能在持久化的过程中宕机；备注：SNN永远无法取代NN的位置，他只是NN的一个...

2019-06-12 00:04:14 143

原创 hdfs文件的存储

以block块的形式将大文件进行相应的存储 1* 64M 2*128M 文件线性切割成块：偏移量offset（byte） block分散存储在集群节点中单一文件block大小一致，文件与文件可以不一致 block可以设置副本数，副本分散在不同的节点中，副本数不要超过节点数量文件上传可以设置BLOCK大小和副本数已上传的文件block副本数可以调整，大小不变只支持一次写入多次读取同一时刻只...

2019-06-11 00:30:34 415

原创个人对大数据概念的理解（知识结构）

大数据的产生：为了解决数据量过大的问题 1）垂直扩展：增加自己的硬件设施但设备终归有极限； 2）横向扩展：由多个服务器所一台一台连接起来的扩展方式，没有瓶颈，可以无限扩展，简单廉价的服务器或者PC端就可以大数据的起源（鼻祖）：google 的三大论文 GFS -------产生 HDFS分布式文件系统（分布式的存储） MapReduce ---------分布式的...

2019-06-10 14:54:29 1490

原创 lunix入门培训课程

在/var下创建sh文件夹，shell脚本在文件夹中编写 1、脚本生成一个100以内的随机数，提示用户猜数字并将随即生成的数字显示 2、使用read提示用户猜数字 3、使用if判断用户猜数字的大小关系猜对了猜大了猜小了 4、使用while循环输入 #!/bin/bash while [ 1 ] do echo “请输入100以内的随机数” read a b=$(( $RANDOM ...

2019-06-09 21:43:44 130

asdlitao123的博客