自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

科大人的博客

个人学习笔记

  • 博客(41)
  • 问答 (1)
  • 收藏
  • 关注

转载 linux查看jdk安装路径

转自博客:http://www.cnblogs.com/imyalost/p/8745137.html1、which java首先输入命令行,查看结果:[root@localhost ~]# which java /usr/bin/java PS:which Java是无法定位到Java的安装路径的,只能定位到执行路径;whereis Java也无法定位,只能展示一部分的Java路径...

2019-04-23 12:42:02 31959 3

转载 pig、hive、hbase的关系与区别

内容源自博客:https://blog.csdn.net/qq_33161208/article/details/79441129Pig:一种操作hadoop的轻量级脚本语言,是一种数据流语言,最初由雅虎公司推出,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非...

2019-04-23 11:34:50 905

原创 ajax相关知识点

1、什么是Ajax?不刷新页面,可以和服务器端进行通信获取数据更新网页局部信息。2、使用XMHttpRequest对象实现3、Ajax传输数据的三种数据方式?HTML:传输的数据格式有限,代码需要拼装完成XML:笨重,解析困难,不易使用JSON:小巧,有面向对象的特征,JS原生支持4、JQerya.load (url,args)b.$get,$post,$getJSON,$.g...

2019-04-23 10:28:32 264

原创 hadoop Sqoop-1.4.7 安装部署

基础环境java jdk1.8.1_181hadoop 2.7.2 一管理节点 二数据节点zookeeper 3.4.9hbase 1.2.6hive 2.3.4mysql 5.7.25sqoop 1.4.7sqoop镜像资源sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz:http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.

2019-03-19 19:37:01 448

转载 hadoop Hbase-1.2.6 安装部署

基础环境java jdk1.8.1_181hadoop 2.7.2 一管理节点 二数据节点zookeeper 3.4.9hbase 1.2.6hbase镜像资源http://archive.apache.org/dist/hbase/解压tar -zxvf hbase-1.2.6-bin配置环境变量vim ~/.profile加入

2019-03-18 17:29:01 264

原创 设置mysql默认编码为utf8

Centos7.5:修改/etc/my.cnf配置文件,在[mysqld]下添加编码配置,即下图红框部分;保存、退出、重启mysqlvim /etc/my.cnf[mysqld]下添加character_set_server=utf8init_connect='SET NAMES utf8'Ubuntu16.04::修改/etc/mysql/mysql.conf.d/mysqld.cnf配置文件,在[mysqld]下添加编码配置,即下图红框部分;保存、退出、重启mysqlvim /et

2019-03-17 21:25:21 2622

原创 hadoop ZooKeeper 3.4.9 全分布安装

安装环境:Linux Ubuntu16.04 64位系统java jdk1.8.1_181hadoop-2.7.2 master、slave1、slave2zookeeper 3.4.9 1、2、3zookeeper官方安装源:https://archive.apache.org/dist/zookeeper/解压,配置环境hadoop用户登录,将下载的gz包移动到目标目录解压tar -zxvf zookeeper-3.4.9.tar.gz进入配置文件.profile,添加修改环境变量

2019-03-15 11:07:56 284

转载 hadoop Flume 操作实例(Flume 与 Flume 之间数据传递:单Flume 多Channel、Sink;多 Flume 汇总数据到单 Flume)

环境配置:Linux Ubuntu16.04系统hadoop 2.7.2(一主master,二从slave1、slave2)java jdk1.8.0_181Flume 1.7.0案例四:Flume 与 Flume 之间数据传递:单Flume 多Channel、Sink目标:使用 flume-1 监控文件变动,flume-1 将变动内容传递给 flume-2,flume-2 负责存储到HDFS。同时 flume-1 将变动内容传递给 flume-3,flume-3 负责输出到local fil

2019-03-12 12:59:34 579

转载 hadoop Flume 操作实例(监控端口数据、实时读取本地文件到 HDFS、实时读取目录文件到 HDFS)

环境配置:Linux Ubuntu16.04系统hadoop 2.7.2java jdk1.8.0_181Flume 1.7.0flume环境配置教程:hadoop Flume 安装环境案例一:监控端口数据目标:Flume监控一端Console,另一端Console发送消息,使被监控端实时显示。分步实现:1)安装telnet工具(Ubuntu自带的有,centos需要安装)

2019-03-11 22:20:12 1802

原创 hadoop Flume 1.7.0 安装环境

1、版本 Linux Ubuntu系统 16.04 Hadoop 2.7.2 一主二从集群 Java 1.8.0_181 Flume 1.7.0

2019-03-11 13:41:25 495

原创 hadoop Pig 0.17.0 操作实例

使用版本MySQL 5.7.25Pig 0.17.0基础操作 新建两个文件存放数据,每个数据间用tab键作分隔符,在末行模式用set list可查看格式vim tmp_file_1

2019-03-08 14:36:36 290

转载 hadoop Hive 基本操作

1、基础操作 (1)启动 hive[hadoop@master ~]$ bin/hive (2)查看数据库hive>show databases; (3)打开默认数据库hive>use default; (4)显示 default 数据库中的表hive>show tables; (5)创建一张表hive> create table student(id int, name string) ; (6)显示数据库中有几张

2019-03-07 21:49:47 1182

转载 hadoop Hive基本概念

1、什么是Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL (Hibernate Query Language)转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实现是 MapReduce 3)执行程序运行在 Yarn 上

2019-03-07 20:31:29 659

转载 Ubuntu中环境变量文件/etc/profile、/etc/bashrc、~/.profile、~/.bashrc之间的区别

环境变量不同的发行版里的文件的命名可能有所不同,如有的发行版etc目录下有bashrc,有的发行版下面是bash.bashrc。这个根据每个人不同的发行版注意下具体的文件名称。/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置.所以如果你有对/etc/profile有修改的话必须得重启你的修改才会生效,此修改对每个用户都生效。可以通过命令source /etc/profile立即生效。

2019-03-07 17:17:13 584

原创 hadoop pig-0.17.0 安装配置

下载Apache Pig首先,从以下网站下载最新版本的Apache Pig,下载Pig步骤取自W3C:Pig安装教程步骤1打开Apache Pig网站的主页。在News部分下,点击链接release page,如下面的快照所示。步骤2点击指定的链接后,你将被重定向到 Apache Pig Releases 页面。在此页面的Download部分下,单击链接,然后你将被重定向到具有一组镜...

2019-03-07 16:45:59 1030

转载 hadoop MapReduce Writable序列化

1、定义与作用 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop 自己开发了一套序列化机制(Writable),精简、高效。(Protobuf:

2019-03-07 10:33:11 251

原创 hadoop Hive-2.3.4 安装配置

1、root用户登录,安装mysqlapt-get install mysql-server2、下载apache-hive-2.3.4-bin。tar.gz,mysql-connector-java-5.1.47.tar.gzhive资源:http://archive.apache.org/dist/hive/hive-2.3.4/3、hadoop用户登录,将以上两个gz文件解压(我的直接解压在/home/hadoop/下面),将mysql-connector-java-5.1.47文件夹下的m

2019-03-06 13:35:52 3196 6

原创 hadoop 在hadoop集群上执行java程序

1、将java项目打包成jar文件 具体过程这里不解释,在我的另一篇博客 将java程序打包成jar 里,有win系统通过idea打包jar的教程。2、打开hadoop集群,start-all.sh3、将jar包传到linux平台上,删除jar包里的.SF .RSA *SF文件

2019-03-04 14:07:11 4354 2

转载 C/S结构和B/S结构的区别

C/S结构 即Client/Server(客户机/服务器)结构,是大家熟知的软件系统体系结构,通过将任务合理分配到Client端和Server端,降低了系统的通讯开销,可以充分利用两端硬件环境的优势。早期的软件系统多以此作为首选设计标准。B/S结构 即Browser/Server(浏览器/服务器)结构,是随着Internet技术的兴起,对C/S结构的一种变化或者改进的结构。在这种 结构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形成所谓

2019-03-04 10:55:43 11956

转载 hadoop MapReduce概念与思想

MapReduce 概念 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架; Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。

2019-03-02 17:35:33 255

转载 hadoop 回收站

1)默认回收站    默认值 fs.trash.interval=0,0 表示禁用回收站,可以设置删除文件的存活时间。    默认值 fs.trash.checkpoint.interval=0,检查回收站的间隔时间。&amp

2019-03-02 16:55:12 870

转载 hadoop 快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。

2019-03-02 14:27:24 329

转载 hadoop 存档

1)理论概述    每个文件均按块存储,每个块的元数据存储在 namenode 的内存中,因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个 1MB 的文件以大小为 128MB 的块存储,使用的是 1MB 的...

2019-03-02 14:20:20 130

转载 hadoop 集群间数据拷贝

1)scp 实现两个远程主机之间的文件复制scp -r hello.txt hadoop@node3:~/hello.txt // 推 pushscp -r hadoop@node3:~/hello.txt hello.txt // 拉 pullscp -r hadoop@node3:~/hello.txt hadoop@node2:~/ //是通过本地主机中转实现两个远程主机的文件复制...

2019-03-02 13:55:53 1241

转载 hadoop DataNode 工作机制

DataNode工作机制图1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode 启动后向 namenode 注册,通过后,周期性(1 小时)的向 namenode 上报所有的块信息。 3)心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 datanode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 datanode

2019-03-02 13:32:15 205

转载 hadoop 集群安全模式操作

集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。

2019-03-02 12:46:59 417

转载 hadoop SecondaryNameNode 目录结构

Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS元数据的快照。在 /home/hadoop/hadoop_home/dfs/namesecondary/current 这个目录中查看 SecondaryNameNode 目录结构。注:也可能是/home/hadoop/hadoop_home/tmp/dfs/namesecondary/current

2019-03-02 10:57:44 495

转载 hadoop namenode VERSION

1)查看 namenode 版本号在/home/hadoop/hadoop_home/dfs/name/current 这个目录下查看 VERSION

2019-03-02 10:34:06 1549 1

转载 hadoop 滚动编辑日志

正常情况 HDFS 文件系统有更新操作时,就会滚动编辑日志。也可以用命令强制滚动编辑日志。1)滚动编辑日志(前提必须启动集群) hadoop@master:~/hadoop_home/dfs/name/current$ hdfs dfsadmin -rollEdits2)镜像文件什么时候产生 Namenode 启动时加载镜像文件和编辑日志

2019-03-02 10:21:32 852

转载 hadoop 镜像文件和编辑日志文件

1)概念被格式化之后,在/home/hadoop/hadoop_home/dfs/name/current 目录中产生如下文件:

2019-03-02 10:06:25 687

转载 hadoop NameNode和SecondaryNameNode 工作机制

NameNode工作机制1)第一阶段:namenode 启动(1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode 记录操作日志,更新滚动日志。(4)namenode 在内存中对数据进行增删改查2)第二阶段:Secondary Nam...

2019-03-01 22:18:54 373

转载 hadoop HDFS 读数据流程

HDFS读数据流程图1)客户端向 namenode 请求下载文件,namenode 通过查询元数据,找到文件块所在的 datanode地址。2)挑选一台 datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode 开始传输数据给客户端(从磁盘里面读取数据放入流,以 packet 为单位来做校验)。4)客户端以 packet 为单位接收,先在本地缓存,然后写入目标文件...

2019-03-01 21:57:01 178

转载 hadoop HDFS 写数据流程

HDFS写数据流程图:1)客户端向 namenode 请求上传文件,namenode 检查目标文件是否已存在,父目录是否存在。2)namenode 返回是否可以上传。3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn2、dn3。5)客户端请求 dn1 上传数据,dn1 收到请求会继...

2019-03-01 21:49:39 175

原创 java win7环境搭建

1 解压jdk,复制路径2 右键点击我的电脑-属性3 在弹出的页面中点击左侧的“高级系统设置”4 在弹出的窗口中点击“环境变量”5 在“环境变量”窗口中,点击系统变量下面的“新建”(如果有JAVA_HOME则重写当前路径),如图。6 在系统变量中找到“Path”环境变量选中,点击“编辑”,在最后添加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin(如果“%”之前...

2019-03-01 21:39:13 760

原创 Hadoop WIn7环境变量配置

1)配置环境变量1、解压hadoop-2.7.2,复制路径2、在计算机-属性-高级系统设置-环境变量配置:在系统变量Path里添加:;%HADOOP_HOME%\bin系统变量新建HADOOP_HOME:新建HADOOP_USER_NAME:2)测试是否配置成功    win+R运行cmd,输入hadoop,运行结果如图则配置成功&n...

2019-03-01 21:23:22 757

原创 hadoop配置集群常见问题

1)防火墙没关闭、或者没有启动 yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip 地址配置错误4)ssh 没有配置好5)root 用户和 hadoop 两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to...

2019-03-01 21:02:10 461

原创 hadoop集群启动及基础测试

集群成员:master、node1、node21)启动集群(0)如果集群是第一次启动,需要格式化 namenodehadoop@node1:~$ hdfs namenode –formathadoop@node2:~$ hdfs namenode -format(1)启动 HDFS:hadoop@master:~$ start-dfs.shhadoop@master:~$ jps显...

2019-03-01 20:21:40 823 1

原创 将java项目文件压缩为jar包

使用idea工具将一个java项目压缩成jar包

2019-03-01 18:31:30 4761 2

转载 为什么不用32位操作系统?和63位系统差别?

电脑32位和64位的区别

2019-03-01 17:26:27 1223

原创 hadoop2.7.2在Linux Ubuntu16.04虚拟机上的集群搭建

科大人使用的VisualBox来搭建Linux虚拟机,先新建一台LinuxUbuntu16.04版的虚拟机,配置虚拟机的过程在这里就不说了,看科大人心情要不要专门写一篇博客来叙述安装教程。搭建基础的hadoop集群,科大人准备使用一台主机(master)和两台从机(slave1、slave2)来实现,主机配置的2G内存2核CPU,两从机配置的1G内存2核CPU,这个可以根据电脑配置做改变,但是主...

2019-02-28 20:24:38 606

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除