【若泽大数据】零基础班实战
文章平均质量分 77
强悍de巨人
微:eshrank 认识新伙伴,共同进步
展开
-
【若泽大数据实战第二十天】Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop help
Sqoop安装1 下载1. 下载地址http://archive.cloudera.com/cdh5/cdh/5/2. 环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上,并解压[hadoop@hadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组 3 Sqo...原创 2018-06-25 12:05:40 · 975 阅读 · 0 评论 -
【若泽大数据实战第十二天】HDFS HA的 一些补充 【转】
HDFS的基本结构如上图所示,HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode:是Master节点,有点类似Linux里的根目录。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:保存着NameNode的部分信息(不是全部信息NameNode宕掉之后恢复数据用),是Name...转载 2018-05-23 16:38:29 · 460 阅读 · 0 评论 -
【若泽大数据实战第十二天】HDFS课程 读流程-写流程
前言:上期课程J哥给我们讲了很多有关于HDFS内部的namenode,datanode,secondary的各种分析,下面的课程涉及到了读流程和写流程。我也将详细的梳理清楚。HDFS写流程1.文件写流程 --> FSDataOutputStream (面试题)1.1 Client调用FileSystem.create(filePath)方法,去NameNode进行rpc通信,check该路径...原创 2018-05-23 09:38:50 · 360 阅读 · 0 评论 -
【若泽大数据实战第十五天】关于HDFS、YARN及MapReduce的总结
前言:有很多小伙伴对这几个东西的概念有些模糊,这里我做一个总结,希望大家能一篇看懂。一、HDFSHDFS是分布式文件系统,有高容错性的特点,可以部署在价格低廉的服务器上,主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者,它保存着文件名和数据块的映射管理,数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上,但是namenode...原创 2018-05-27 22:12:51 · 446 阅读 · 0 评论 -
【若泽大数据实战第十七天】Hadoop-2.6.0-cdh5.7.0安装详解
前言:apache hadoop版本告一段落,现在安装新的cdh版本的hadoop下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk:注册甲骨文账号下载,推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software...原创 2018-06-03 02:38:47 · 1761 阅读 · 2 评论 -
【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结
前言:Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have。复习前一个月的课程内容:1、LinuxLinux: 文件(*****) 权限(*****) 压缩/解压(*****) 软件安装: JDK/MySQL/Hadoop/...(*****)2、MySQLDDL/DML(GROUP BY/JOIN:是大数据处理中的超级杀手:shuffl...原创 2018-06-02 18:43:37 · 1326 阅读 · 2 评论 -
【若泽大数据实战第七天】MySQL在DBeaver上的使用
一、创建一张表 create table ruozedata(id int, name varchar(100), age int, age int, createtime timestamp, createuser varchar(100), createuser varchar(100), updateuser varchar(100) )在建表的...原创 2018-05-16 00:03:48 · 11179 阅读 · 3 评论 -
【若泽大数据实战第十八天】Hive - DML 分区表 内部函数
前言:上一堂课回顾总结:大数据开发最主要做底层的优化架构的优化,这些东西才是核心,写代码用的不多,做平台化,开发一个平台直接在页面上拖拽就可以了,底层的数据平台都已经封装好了,只是会某一个功能,只能说是大数据开发的入门,初级程序员做的事。Oracle在大数据几乎不用,只用一些轻量级的数据库。讲了DDL DML,Hive数据模型的抽象,顶层是Database,下一层是table,再下一层是parti...原创 2018-06-11 21:37:20 · 581 阅读 · 0 评论 -
【若泽大数据实战第十九天】自定义函数sayhello 注册到hive 源码中,并且重新编译hive
环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数sayhello 注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven,文件头修改下,其他可以直...原创 2018-06-17 00:52:52 · 506 阅读 · 0 评论 -
【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数
前言:回顾想上期课程,上次课我们讲了聚合函数,多进一出原创 2018-06-17 00:52:39 · 1241 阅读 · 0 评论 -
【若泽大数据实战第十八天】Hive - 常用建表及语法
创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];--案例 create database if n...原创 2018-06-07 20:06:12 · 599 阅读 · 0 评论 -
【若泽大数据实战第十八天】Hive - DML整理版
1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中,update和delete一般不会用,生产数据是不会删除的,常用overwrite和load做数据的转换。insert into values 也一般不会用,离线批处理,一些实时的数据insert场景并不多,这个命令只是从关系型数据库兼容过来的。2. LOAD操作HIVE的DML,从OS或...原创 2018-06-07 19:24:27 · 396 阅读 · 0 评论 -
【若泽大数据实战第十七天】Hive - DDL 整理版
1. 相关说明DDL=Date Definition Language,数据定义语言。学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。 官方WIKI打开: 浏览器访问 http://hive.apache.org, 找到”Getting Started Guide”,...原创 2018-06-07 19:21:10 · 658 阅读 · 0 评论 -
【若泽大数据实战第十八天】Hadoop MySQL 服务自启动配置
配置mysql服务自启动[root@hadoop000 ~]# cd /usr/local/mysql#将服务文件拷贝到init.d下,并重命名为mysql[root@hadoop000 mysql]# cp support-files/mysql.server /etc/rc.d/init.d/mysql #赋予可执行权限[root@hadoop000 mysql]# chmod +x /...原创 2018-06-07 15:37:04 · 476 阅读 · 0 评论 -
【若泽大数据实战第十五天】HDFS编程 IDEA创建一个Maven的scala的模板工程
前言:从本次课程正式加入到编程的行列中来,以前编程的经验不多,通过此次学习希望可以获得更多的收获。Hadoop编程创建一个Maven的scala的模板工程新的项目对Maven进行设置选择 scala-tools填写信息修改路径修改项目名称和项目路径,点击【确定】复制代码内容拷贝文件到 IDEA上这4个去官网下载个Maven的代码搜索hadoop,点击 hadoop-common地址http://m...原创 2018-05-30 19:33:00 · 413 阅读 · 0 评论 -
【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改
前言:上一个章节,若泽给我们讲的第一堂课Hive,详细的总结了,有关Hive的各种信息,本次课程讲讲Hive的 DDLDatabaseHive中包含了多个数据库,默认的数据库为default,对应于HDFS目录是/user/hadoop/hive/warehouse,可以通过hive.metastore.warehouse.dir参数进行配置(hive-site.xml中配置)TableHive中...原创 2018-06-06 01:02:25 · 975 阅读 · 0 评论 -
【若泽大数据实战第十四天】YARN 生产详解
前言:上节课我们讲了 MR job的提交Yarn的工作流程Yarn的工作流程MR架构设计Yarn(主从) 资源 + 作业调度管理Yarn:是一种新的 Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。ResourceManager(RM):主要接收客户端任务请求,接收和监控NodeManag...原创 2018-05-29 16:21:32 · 789 阅读 · 1 评论 -
【若泽大数据实战第十八天】Hive - 创建测试表dual的使用
-- 创建 dual 表(只有在测试的时候用insert)hive> create table dual(x string);OKTime taken: 0.282 secondshive> insert into table dual values('');Query ID = hadoop_20180611233030_645e070e-77f9-4ea4-8b32-ee3...原创 2018-06-12 00:29:13 · 944 阅读 · 0 评论 -
【若泽大数据实战第十三天】MapReduce 详解
前言:上几次的课程围绕着 HDFS详细说了如何读和写的流程,本次课程主要讲MapReduce,我将梳理整套课程的,总结上次课的补充:学会看hadoop的日志:首先找到日志的目录,往下看有好多好多的日志,是不是纠结要看哪一个?请记住找log日志要找.log结尾的,以下红色字体对应每个单词的位置信息。hadoop-hadoop-datanode-hadoop-01.log 是在hadoop这台机器上启...原创 2018-05-25 16:30:32 · 516 阅读 · 0 评论 -
【若泽大数据实战第九天】Hadoop伪分布式模式部署 HDFS(root用户)
Hadoop伪分布式模式Hadoop2.x:官网:hadoop.apache.org三个组件:HDFS:分布式文件系统,存储MapReduce:分布式计算Yarn:资源(cpu + memory)和JOB调度监控文档地址: http://hadoop.apache.org/docs/r2.8.2/部署方式:1.单机模式(Standalone):1个Java进程2.伪分布模式(Pse...原创 2018-05-15 12:44:43 · 358 阅读 · 1 评论 -
【若泽大数据实战第十天】Hadoop 伪分布式部署(MapReduce+Yarn) -- 时间戳概念
前言:前面的阶段J哥讲了jps hdfs,接下来,学一学yarn的配置首先打开官网可以看到一些有关于yarn的信息官网地址:http://hadoop.apache.org/docs/r2.8.4/hadoop-project-dist/hadoop-common/SingleCluster.html1.Yarn伪分布式部署MapReduce + YarnYarn的两个进程: Resou...原创 2018-05-18 16:40:19 · 767 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop 参数
前言:Hadoop三个参数文件,我不是很理解,我网上找了一篇学习下 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop...转载 2018-05-17 23:43:16 · 502 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop用户重新部署伪分布式(HDFS)
前言:上次课我们部署的使用的root用户,在生产环境中,不可能给你root用户,我们就创建一个hadoop用户来部署Hadoop用户重新部署hdfs步骤1.创建Hadoop用户# useradd hadoop# id hadoop# passwd haddop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh,确保其是运行的查...原创 2018-05-17 18:06:07 · 263 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop jps 详解 - jps报27342 -- process information unavailable
Haoop jps 详解jps最主要的功能使查看java接口的进程号jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有 java 进程 pid 的命令,简单实用,非常适合在 linux/unix 平台上简单察看当前java进程的一些简单情况。注:jps命令有个地方很不好,似乎只能显示当前用户的java进程,要显示其他用户...原创 2018-05-17 18:09:29 · 1174 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop用户启动hdf三个进程
前言:再上次的课程中我们配置了root用户来启动了hdfs,hdfs-site.xml内的参数都是官方默认的参数,所以启动项没有整理比较乱,为了做生产标准统一规范使用,我要用hadoop用户启动hdfs进程的启动显示全部为hadoop-01的主机名,先看看root用户下启动的情况可以看到namenodes datanode sercondary namenodes 进程启动的名称都不xiang,接...原创 2018-05-17 13:42:38 · 421 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop伪分布式部署 HDFS (hadoop用户)
Hadoop部署的三种模式单机模式(standalone)一般不建议安装,网络上很少这方面资料单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程...原创 2018-05-15 13:54:10 · 329 阅读 · 0 评论 -
【若泽大数据实战第十天】Hadoop与root用户配置ssh免密码登录
Hadoop用户配置ssh1.创建Hadoop用户# useradd hadoop# id hadoop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh,确保其是运行的查看:默认是已经安装 hadoop]$ sudo service sshd status3.配置hadoop用户的ssh的信任关系~]$ ssh-ke...原创 2018-05-17 11:04:12 · 363 阅读 · 0 评论 -
【若泽大数据实战第五天】MySQL二进制部署
QQ猴大数据测试平台MySQL环境搭建一、介质需求:本次安装MySQL5.6版本,目前MySQL已经更新到了8.0版二、CentOS自带MySQL卸载:CentOS6.5会自带MySQL的服务,组件,客户端等是之前5.1版本所遗留的,如不删除干净,会对以后使用的MySQL造成一定的BUG,所以我会先将之前的一些组件目录,配置文件等删除和卸载。1、使用命令查看当前安装MySQL的情况:[root@h...原创 2018-05-09 12:53:22 · 464 阅读 · 0 评论 -
【若泽大数据实战第四天】大数据Linux命令汇总
第三天课程笔记1. 查看当前ip - linux# ifconfig查看当前ip - windowscmd -> ipconfig2.CRT/XSHELL 链接 Linux3.文件创建 vi 和 touch xxx.log 创建一个空的文件结果: 4.文件夹创建 mkdir xxx 创建1层 mkdir -p 1/2/3 连续创建3层 mkdir 4 5 6 同层1下子创建3...原创 2018-05-09 12:43:52 · 826 阅读 · 0 评论 -
【若泽大数据实战第五天】jdk1.8安装
jdk1.8安装,tar解压,用户组发生变化,需要调整:[root@hadoop-01 java]# mkdir -p /usr/java[root@hadoop-01 java]# cd /usr/java/[root@hadoop-01 java]# mv /software/jdk-8u45-linux-x64.gz ./[root@hadoop-01 java]# tar -xzvf jd...原创 2018-05-09 10:37:16 · 293 阅读 · 0 评论 -
【若泽大数据实战第七天】MySQL常用命令和SQL语法
MySQL的基本概念:database db :数据库table : 表db1:t1, t2, t3db2:t2, t3, t4字段类型:http://www.runoob.com/mysql/mysql-data-types.html整数型:int小数型:float/double字符:char字符串:varchar时间:timestamp常规命令:使用某个数据库: ...原创 2018-05-12 16:23:11 · 315 阅读 · 0 评论 -
【若泽大数据实战第六天】大数据平台DB监控软件 dbeaver安装+jdk1.8
一.安装dbeaver需要先需要安装jdk工具 jdk-8u171-windows-x64.exe二、配置环境变量: 1. 打开环境变量配置。计算机→属性→高级系统设置→高级→环境变量,在系统变量中配置。 2. 配置JAVA_HOME。新建,变量名JAVA_HOME,变量值,jdk路径,我的路径是C:\Program Files\Java\jdk1.8.0_171,保存...原创 2018-05-13 12:01:30 · 2314 阅读 · 1 评论 -
【若泽大数据实战第十一天】HDFS启动过程详解
前言:整理HDFS整个启动的详细过程Namenode保存文件系统元数据镜像,namenode在内存及磁盘(fsimage和editslog)上分别存在一份元数据镜像文件,内存中元数据镜像保证了hdfs文件系统文件访问效率,磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的两类文件组成:fsimage文件:保存文件系统至上次checkpoint为止目录和文件元数据。edit...原创 2018-05-21 20:08:36 · 375 阅读 · 0 评论 -
【若泽大数据实战第十一天】Hadoop生态系统官网、下载地址、文档
Apache版本: Hadoop官网:http://hadoop.apache.org/Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/Hadoop历史版本下载:http://archive.apache.org/dist/hadoop/core/Hadoop文档:http://hadoop.apache.org/docs/Hive官网...原创 2018-05-21 16:44:09 · 537 阅读 · 0 评论 -
【若泽大数据实战第十一天】HDFS课程 - 副本数 Block Namenode、datanode、、SecondaryNameNode
前言:我把kafka的前置课程写完了,对kafka有了一定的了解,接下去我将把HDFS的课程写的详细一些。1.HDFS进程NameNode(NN):名称节点 -> client第一个操作的对象DataNode(DN):数据节点 --> 存储数据的 Secondary NameNode(SNN)--> 第二名称节点2.block(数据块)block大小: 默认...原创 2018-05-20 18:25:58 · 1784 阅读 · 0 评论 -
【若泽大数据实战第十一天】Kafka(前置课彩蛋)
前言:HDFS在上几次课程中最多用的就是 ./start-dfs.sh 启动命令 或者 格式化 hdfs namenode -format,今天课程有个小小的彩蛋,讲了一些关于kafka的内容,我将相关的kafka的信息自己做了一些补充Kafka 消息系统app -----> Flum(收集)---> kafka ----->计算(Spark,Flink) 夯住或者作业失败 ...原创 2018-05-20 15:17:05 · 982 阅读 · 0 评论 -
【若泽大数据实战第九天】Hadoop 编译
Hadoop:1.官网:http://hadoop.apache.org/2.Hadoop的狭义和褒义认识:狭义:软件(HDFS、MapReduce、Yarn)褒义:以Hadoop为主的生态圈3.Hadoop版本Hadoop1.x: HDFS:分布式文件系统,存储 MapReduce:分布式计算+资源调度和作业调度Hadoop2.x HDFS:存储 MapR...原创 2018-05-14 10:07:54 · 507 阅读 · 1 评论 -
【若泽大数据实战第三天】Linux命令进阶
Linux基本命令:用户和用户组的常用命令(IT运维):查看用户目录: ll /usr/sbin/user*查看用户组目录: ll /usr/sbin/group*查看用户: ll /usr/sbin/user*查看用户组: ll /usr/sbin/group*添加用户:useradd xxx删除之后如果再次创建的时候会提示家目录...原创 2018-05-07 11:59:18 · 384 阅读 · 0 评论 -
【若泽大数据实战第二天】Linux命令基础
Linux基本命令:查看IP:ifconfig 或者 hostname -i(需要配置文件之后才可以使用)ipconfig(Windows)关闭防火墙:Service iptables statuschkconfig iptables off配置静态IP地址:vi /etc/sysconfig/network-scripts/ifcfg-eth0 ONBOOT=yes NM...原创 2018-05-07 11:58:00 · 406 阅读 · 0 评论 -
【若泽大数据实战第十一天】HDFS文件的读写操作剖析
前言:对于HDFS文件的读写解析,我总结了一下的一些概念一、HDFS的一些基本概念: 数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode:datanod...原创 2018-05-20 10:17:32 · 322 阅读 · 0 评论