![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
总结
科大人
喵~
展开
-
hadoop2.7.2在Linux Ubuntu16.04虚拟机上的集群搭建
科大人使用的VisualBox来搭建Linux虚拟机,先新建一台LinuxUbuntu16.04版的虚拟机,配置虚拟机的过程在这里就不说了,看科大人心情要不要专门写一篇博客来叙述安装教程。搭建基础的hadoop集群,科大人准备使用一台主机(master)和两台从机(slave1、slave2)来实现,主机配置的2G内存2核CPU,两从机配置的1G内存2核CPU,这个可以根据电脑配置做改变,但是主...原创 2019-02-28 20:24:38 · 607 阅读 · 0 评论 -
hadoop 回收站
1)默认回收站    默认值 fs.trash.interval=0,0 表示禁用回收站,可以设置删除文件的存活时间。    默认值 fs.trash.checkpoint.interval=0,检查回收站的间隔时间。&转载 2019-03-02 16:55:12 · 870 阅读 · 0 评论 -
hadoop MapReduce概念与思想
MapReduce 概念 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架; Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。转载 2019-03-02 17:35:33 · 255 阅读 · 0 评论 -
hadoop Pig 0.17.0 操作实例
使用版本MySQL 5.7.25Pig 0.17.0基础操作 新建两个文件存放数据,每个数据间用tab键作分隔符,在末行模式用set list可查看格式vim tmp_file_1原创 2019-03-08 14:36:36 · 290 阅读 · 0 评论 -
C/S结构和B/S结构的区别
C/S结构 即Client/Server(客户机/服务器)结构,是大家熟知的软件系统体系结构,通过将任务合理分配到Client端和Server端,降低了系统的通讯开销,可以充分利用两端硬件环境的优势。早期的软件系统多以此作为首选设计标准。B/S结构 即Browser/Server(浏览器/服务器)结构,是随着Internet技术的兴起,对C/S结构的一种变化或者改进的结构。在这种 结构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形成所谓转载 2019-03-04 10:55:43 · 11957 阅读 · 0 评论 -
hadoop MapReduce Writable序列化
1、定义与作用 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop 自己开发了一套序列化机制(Writable),精简、高效。(Protobuf:转载 2019-03-07 10:33:11 · 251 阅读 · 0 评论 -
hadoop pig-0.17.0 安装配置
下载Apache Pig首先,从以下网站下载最新版本的Apache Pig,下载Pig步骤取自W3C:Pig安装教程步骤1打开Apache Pig网站的主页。在News部分下,点击链接release page,如下面的快照所示。步骤2点击指定的链接后,你将被重定向到 Apache Pig Releases 页面。在此页面的Download部分下,单击链接,然后你将被重定向到具有一组镜...原创 2019-03-07 16:45:59 · 1030 阅读 · 0 评论 -
Ubuntu中环境变量文件/etc/profile、/etc/bashrc、~/.profile、~/.bashrc之间的区别
环境变量不同的发行版里的文件的命名可能有所不同,如有的发行版etc目录下有bashrc,有的发行版下面是bash.bashrc。这个根据每个人不同的发行版注意下具体的文件名称。/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置.所以如果你有对/etc/profile有修改的话必须得重启你的修改才会生效,此修改对每个用户都生效。可以通过命令source /etc/profile立即生效。转载 2019-03-07 17:17:13 · 584 阅读 · 0 评论 -
hadoop ZooKeeper 3.4.9 全分布安装
安装环境:Linux Ubuntu16.04 64位系统java jdk1.8.1_181hadoop-2.7.2 master、slave1、slave2zookeeper 3.4.9 1、2、3zookeeper官方安装源:https://archive.apache.org/dist/zookeeper/解压,配置环境hadoop用户登录,将下载的gz包移动到目标目录解压tar -zxvf zookeeper-3.4.9.tar.gz进入配置文件.profile,添加修改环境变量原创 2019-03-15 11:07:56 · 284 阅读 · 0 评论 -
hadoop Hive基本概念
1、什么是Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL (Hibernate Query Language)转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实现是 MapReduce 3)执行程序运行在 Yarn 上转载 2019-03-07 20:31:29 · 659 阅读 · 0 评论 -
hadoop Hive 基本操作
1、基础操作 (1)启动 hive[hadoop@master ~]$ bin/hive (2)查看数据库hive>show databases; (3)打开默认数据库hive>use default; (4)显示 default 数据库中的表hive>show tables; (5)创建一张表hive> create table student(id int, name string) ; (6)显示数据库中有几张转载 2019-03-07 21:49:47 · 1182 阅读 · 0 评论 -
hadoop Sqoop-1.4.7 安装部署
基础环境java jdk1.8.1_181hadoop 2.7.2 一管理节点 二数据节点zookeeper 3.4.9hbase 1.2.6hive 2.3.4mysql 5.7.25sqoop 1.4.7sqoop镜像资源sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz:http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.原创 2019-03-19 19:37:01 · 449 阅读 · 0 评论 -
hadoop Flume 1.7.0 安装环境
1、版本 Linux Ubuntu系统 16.04 Hadoop 2.7.2 一主二从集群 Java 1.8.0_181 Flume 1.7.0原创 2019-03-11 13:41:25 · 495 阅读 · 0 评论 -
hadoop Flume 操作实例(监控端口数据、实时读取本地文件到 HDFS、实时读取目录文件到 HDFS)
环境配置:Linux Ubuntu16.04系统hadoop 2.7.2java jdk1.8.0_181Flume 1.7.0flume环境配置教程:hadoop Flume 安装环境案例一:监控端口数据目标:Flume监控一端Console,另一端Console发送消息,使被监控端实时显示。分步实现:1)安装telnet工具(Ubuntu自带的有,centos需要安装)转载 2019-03-11 22:20:12 · 1806 阅读 · 0 评论 -
hadoop Flume 操作实例(Flume 与 Flume 之间数据传递:单Flume 多Channel、Sink;多 Flume 汇总数据到单 Flume)
环境配置:Linux Ubuntu16.04系统hadoop 2.7.2(一主master,二从slave1、slave2)java jdk1.8.0_181Flume 1.7.0案例四:Flume 与 Flume 之间数据传递:单Flume 多Channel、Sink目标:使用 flume-1 监控文件变动,flume-1 将变动内容传递给 flume-2,flume-2 负责存储到HDFS。同时 flume-1 将变动内容传递给 flume-3,flume-3 负责输出到local fil转载 2019-03-12 12:59:34 · 580 阅读 · 0 评论 -
设置mysql默认编码为utf8
Centos7.5:修改/etc/my.cnf配置文件,在[mysqld]下添加编码配置,即下图红框部分;保存、退出、重启mysqlvim /etc/my.cnf[mysqld]下添加character_set_server=utf8init_connect='SET NAMES utf8'Ubuntu16.04::修改/etc/mysql/mysql.conf.d/mysqld.cnf配置文件,在[mysqld]下添加编码配置,即下图红框部分;保存、退出、重启mysqlvim /et原创 2019-03-17 21:25:21 · 2622 阅读 · 0 评论 -
hadoop Hbase-1.2.6 安装部署
基础环境java jdk1.8.1_181hadoop 2.7.2 一管理节点 二数据节点zookeeper 3.4.9hbase 1.2.6hbase镜像资源http://archive.apache.org/dist/hbase/解压tar -zxvf hbase-1.2.6-bin配置环境变量vim ~/.profile加入转载 2019-03-18 17:29:01 · 266 阅读 · 0 评论 -
hadoop 快照管理
快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。转载 2019-03-02 14:27:24 · 330 阅读 · 0 评论 -
hadoop 存档
1)理论概述    每个文件均按块存储,每个块的元数据存储在 namenode 的内存中,因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个 1MB 的文件以大小为 128MB 的块存储,使用的是 1MB 的...转载 2019-03-02 14:20:20 · 130 阅读 · 0 评论 -
为什么不用32位操作系统?和63位系统差别?
电脑32位和64位的区别转载 2019-03-01 17:26:27 · 1223 阅读 · 0 评论 -
将java项目文件压缩为jar包
使用idea工具将一个java项目压缩成jar包原创 2019-03-01 18:31:30 · 4764 阅读 · 2 评论 -
hadoop集群启动及基础测试
集群成员:master、node1、node21)启动集群(0)如果集群是第一次启动,需要格式化 namenodehadoop@node1:~$ hdfs namenode –formathadoop@node2:~$ hdfs namenode -format(1)启动 HDFS:hadoop@master:~$ start-dfs.shhadoop@master:~$ jps显...原创 2019-03-01 20:21:40 · 823 阅读 · 1 评论 -
hadoop配置集群常见问题
1)防火墙没关闭、或者没有启动 yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip 地址配置错误4)ssh 没有配置好5)root 用户和 hadoop 两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to...原创 2019-03-01 21:02:10 · 461 阅读 · 0 评论 -
Hadoop WIn7环境变量配置
1)配置环境变量1、解压hadoop-2.7.2,复制路径2、在计算机-属性-高级系统设置-环境变量配置:在系统变量Path里添加:;%HADOOP_HOME%\bin系统变量新建HADOOP_HOME:新建HADOOP_USER_NAME:2)测试是否配置成功    win+R运行cmd,输入hadoop,运行结果如图则配置成功&n...原创 2019-03-01 21:23:22 · 757 阅读 · 0 评论 -
java win7环境搭建
1 解压jdk,复制路径2 右键点击我的电脑-属性3 在弹出的页面中点击左侧的“高级系统设置”4 在弹出的窗口中点击“环境变量”5 在“环境变量”窗口中,点击系统变量下面的“新建”(如果有JAVA_HOME则重写当前路径),如图。6 在系统变量中找到“Path”环境变量选中,点击“编辑”,在最后添加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin(如果“%”之前...原创 2019-03-01 21:39:13 · 760 阅读 · 0 评论 -
hadoop HDFS 写数据流程
HDFS写数据流程图:1)客户端向 namenode 请求上传文件,namenode 检查目标文件是否已存在,父目录是否存在。2)namenode 返回是否可以上传。3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn2、dn3。5)客户端请求 dn1 上传数据,dn1 收到请求会继...转载 2019-03-01 21:49:39 · 175 阅读 · 0 评论 -
hadoop HDFS 读数据流程
HDFS读数据流程图1)客户端向 namenode 请求下载文件,namenode 通过查询元数据,找到文件块所在的 datanode地址。2)挑选一台 datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode 开始传输数据给客户端(从磁盘里面读取数据放入流,以 packet 为单位来做校验)。4)客户端以 packet 为单位接收,先在本地缓存,然后写入目标文件...转载 2019-03-01 21:57:01 · 178 阅读 · 0 评论 -
hadoop NameNode和SecondaryNameNode 工作机制
NameNode工作机制1)第一阶段:namenode 启动(1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode 记录操作日志,更新滚动日志。(4)namenode 在内存中对数据进行增删改查2)第二阶段:Secondary Nam...转载 2019-03-01 22:18:54 · 373 阅读 · 0 评论 -
hadoop 镜像文件和编辑日志文件
1)概念被格式化之后,在/home/hadoop/hadoop_home/dfs/name/current 目录中产生如下文件:转载 2019-03-02 10:06:25 · 688 阅读 · 0 评论 -
hadoop 滚动编辑日志
正常情况 HDFS 文件系统有更新操作时,就会滚动编辑日志。也可以用命令强制滚动编辑日志。1)滚动编辑日志(前提必须启动集群) hadoop@master:~/hadoop_home/dfs/name/current$ hdfs dfsadmin -rollEdits2)镜像文件什么时候产生 Namenode 启动时加载镜像文件和编辑日志转载 2019-03-02 10:21:32 · 854 阅读 · 0 评论 -
hadoop namenode VERSION
1)查看 namenode 版本号在/home/hadoop/hadoop_home/dfs/name/current 这个目录下查看 VERSION转载 2019-03-02 10:34:06 · 1549 阅读 · 1 评论 -
hadoop SecondaryNameNode 目录结构
Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS元数据的快照。在 /home/hadoop/hadoop_home/dfs/namesecondary/current 这个目录中查看 SecondaryNameNode 目录结构。注:也可能是/home/hadoop/hadoop_home/tmp/dfs/namesecondary/current转载 2019-03-02 10:57:44 · 495 阅读 · 0 评论 -
hadoop 集群安全模式操作
集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。转载 2019-03-02 12:46:59 · 417 阅读 · 0 评论 -
hadoop DataNode 工作机制
DataNode工作机制图1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode 启动后向 namenode 注册,通过后,周期性(1 小时)的向 namenode 上报所有的块信息。 3)心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 datanode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 datanode转载 2019-03-02 13:32:15 · 205 阅读 · 0 评论 -
hadoop 集群间数据拷贝
1)scp 实现两个远程主机之间的文件复制scp -r hello.txt hadoop@node3:~/hello.txt // 推 pushscp -r hadoop@node3:~/hello.txt hello.txt // 拉 pullscp -r hadoop@node3:~/hello.txt hadoop@node2:~/ //是通过本地主机中转实现两个远程主机的文件复制...转载 2019-03-02 13:55:53 · 1241 阅读 · 0 评论 -
linux查看jdk安装路径
转自博客:http://www.cnblogs.com/imyalost/p/8745137.html1、which java首先输入命令行,查看结果:[root@localhost ~]# which java /usr/bin/java PS:which Java是无法定位到Java的安装路径的,只能定位到执行路径;whereis Java也无法定位,只能展示一部分的Java路径...转载 2019-04-23 12:42:02 · 31978 阅读 · 3 评论