【若泽大数据】零基础班实战_强悍de巨人的博客-CSDN博客

【若泽大数据】零基础班实战

关注

文章平均质量分 77

关注数：文章数：44 文章阅读量：44134 文章收藏量：100

作者: 强悍de巨人

微：eshrank 认识新伙伴，共同进步

展开

专栏收录文章

【若泽大数据实战第二十天】Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop help

Sqoop安装1 下载1. 下载地址http://archive.cloudera.com/cdh5/cdh/5/2. 环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上，并解压[hadoop@hadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组 3 Sqo...

原创 2018-06-25 12:05:40 · 1024 阅读 · 0 评论
【若泽大数据实战第十二天】HDFS HA的一些补充【转】

HDFS的基本结构如上图所示，HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode：是Master节点，有点类似Linux里的根目录。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；SecondaryNameNode：保存着NameNode的部分信息（不是全部信息NameNode宕掉之后恢复数据用），是Name...

转载 2018-05-23 16:38:29 · 484 阅读 · 0 评论
【若泽大数据实战第十二天】HDFS课程读流程-写流程

前言：上期课程J哥给我们讲了很多有关于HDFS内部的namenode，datanode，secondary的各种分析，下面的课程涉及到了读流程和写流程。我也将详细的梳理清楚。HDFS写流程1.文件写流程 --> FSDataOutputStream (面试题)1.1 Client调用FileSystem.create(filePath)方法，去NameNode进行rpc通信，check该路径...

原创 2018-05-23 09:38:50 · 404 阅读 · 0 评论
【若泽大数据实战第十五天】关于HDFS、YARN及MapReduce的总结

前言：有很多小伙伴对这几个东西的概念有些模糊，这里我做一个总结，希望大家能一篇看懂。一、HDFSHDFS是分布式文件系统，有高容错性的特点，可以部署在价格低廉的服务器上，主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者，它保存着文件名和数据块的映射管理，数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上，但是namenode...

原创 2018-05-27 22:12:51 · 478 阅读 · 0 评论
【若泽大数据实战第十七天】Hadoop-2.6.0-cdh5.7.0安装详解

前言：apache hadoop版本告一段落，现在安装新的cdh版本的hadoop下载Hadoop和JDK下载Hadoop地址：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk：注册甲骨文账号下载，推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software...

原创 2018-06-03 02:38:47 · 1816 阅读 · 2 评论
【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结

前言：Hadoop的课程已经告一段落，基本上在零基础课程里不会再出现了，接下来的课程由若总来上，第一讲Have。复习前一个月的课程内容：1、LinuxLinux：文件(*****) 权限(*****) 压缩/解压(*****) 软件安装: JDK/MySQL/Hadoop/...(*****)2、MySQLDDL/DML(GROUP BY/JOIN:是大数据处理中的超级杀手:shuffl...

原创 2018-06-02 18:43:37 · 1403 阅读 · 2 评论
【若泽大数据实战第七天】MySQL在DBeaver上的使用

一、创建一张表 create table ruozedata(id int, name varchar(100), age int, age int, createtime timestamp, createuser varchar(100), createuser varchar(100), updateuser varchar(100) )在建表的...

原创 2018-05-16 00:03:48 · 11520 阅读 · 3 评论
【若泽大数据实战第十八天】Hive - DML 分区表内部函数

前言：上一堂课回顾总结：大数据开发最主要做底层的优化架构的优化，这些东西才是核心，写代码用的不多，做平台化，开发一个平台直接在页面上拖拽就可以了，底层的数据平台都已经封装好了，只是会某一个功能，只能说是大数据开发的入门，初级程序员做的事。Oracle在大数据几乎不用，只用一些轻量级的数据库。讲了DDL DML，Hive数据模型的抽象，顶层是Database，下一层是table，再下一层是parti...

原创 2018-06-11 21:37:20 · 640 阅读 · 0 评论
【若泽大数据实战第十九天】自定义函数sayhello 注册到hive 源码中，并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包放在了 /root 下面 cdh 采用 cdh5.7.0 目标：将自定义函数sayhello 注册到hive 源码中，并且重新编译hive1、编写UDF (1)使用idea+maven，在maven中添加相关参数。重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven，文件头修改下，其他可以直...

原创 2018-06-17 00:52:52 · 547 阅读 · 0 评论
【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数

前言：回顾想上期课程，上次课我们讲了聚合函数，多进一出

原创 2018-06-17 00:52:39 · 1300 阅读 · 0 评论
【若泽大数据实战第十八天】Hive - 常用建表及语法

创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];--案例 create database if n...

原创 2018-06-07 20:06:12 · 636 阅读 · 0 评论
【若泽大数据实战第十八天】Hive - DML整理版

1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中，update和delete一般不会用，生产数据是不会删除的，常用overwrite和load做数据的转换。insert into values 也一般不会用，离线批处理，一些实时的数据insert场景并不多，这个命令只是从关系型数据库兼容过来的。2. LOAD操作HIVE的DML，从OS或...

原创 2018-06-07 19:24:27 · 426 阅读 · 0 评论
【若泽大数据实战第十七天】Hive - DDL 整理版

1. 相关说明DDL=Date Definition Language，数据定义语言。学习hive的HQL的DDL相关语法，建议对照官方WIKI，因为语法参数较多，而且和SQL多有相似，不建议记忆，梳理一下，记住相关可以实现的功能和注意点以及和SQL之间的区别即可。官方WIKI打开：浏览器访问 http://hive.apache.org，找到”Getting Started Guide”，...

原创 2018-06-07 19:21:10 · 693 阅读 · 0 评论
【若泽大数据实战第十八天】Hadoop MySQL 服务自启动配置

配置mysql服务自启动[root@hadoop000 ~]# cd /usr/local/mysql#将服务文件拷贝到init.d下，并重命名为mysql[root@hadoop000 mysql]# cp support-files/mysql.server /etc/rc.d/init.d/mysql #赋予可执行权限[root@hadoop000 mysql]# chmod +x /...

原创 2018-06-07 15:37:04 · 510 阅读 · 0 评论
【若泽大数据实战第十五天】HDFS编程 IDEA创建一个Maven的scala的模板工程

前言：从本次课程正式加入到编程的行列中来，以前编程的经验不多，通过此次学习希望可以获得更多的收获。Hadoop编程创建一个Maven的scala的模板工程新的项目对Maven进行设置选择 scala-tools填写信息修改路径修改项目名称和项目路径，点击【确定】复制代码内容拷贝文件到 IDEA上这4个去官网下载个Maven的代码搜索hadoop，点击 hadoop-common地址http://m...

原创 2018-05-30 19:33:00 · 443 阅读 · 0 评论
【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

前言：上一个章节，若泽给我们讲的第一堂课Hive，详细的总结了，有关Hive的各种信息，本次课程讲讲Hive的 DDLDatabaseHive中包含了多个数据库，默认的数据库为default，对应于HDFS目录是/user/hadoop/hive/warehouse，可以通过hive.metastore.warehouse.dir参数进行配置（hive-site.xml中配置）TableHive中...

原创 2018-06-06 01:02:25 · 1047 阅读 · 0 评论
【若泽大数据实战第十四天】YARN 生产详解

前言：上节课我们讲了 MR job的提交Yarn的工作流程Yarn的工作流程MR架构设计Yarn（主从）资源 + 作业调度管理Yarn：是一种新的 Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。ResourceManager(RM)：主要接收客户端任务请求，接收和监控NodeManag...

原创 2018-05-29 16:21:32 · 838 阅读 · 1 评论
【若泽大数据实战第十八天】Hive - 创建测试表dual的使用

-- 创建 dual 表（只有在测试的时候用insert）hive> create table dual(x string);OKTime taken: 0.282 secondshive> insert into table dual values('');Query ID = hadoop_20180611233030_645e070e-77f9-4ea4-8b32-ee3...

原创 2018-06-12 00:29:13 · 1001 阅读 · 0 评论
【若泽大数据实战第十三天】MapReduce 详解

前言：上几次的课程围绕着 HDFS详细说了如何读和写的流程，本次课程主要讲MapReduce，我将梳理整套课程的，总结上次课的补充：学会看hadoop的日志：首先找到日志的目录，往下看有好多好多的日志，是不是纠结要看哪一个？请记住找log日志要找.log结尾的，以下红色字体对应每个单词的位置信息。hadoop-hadoop-datanode-hadoop-01.log 是在hadoop这台机器上启...

原创 2018-05-25 16:30:32 · 553 阅读 · 0 评论
【若泽大数据实战第九天】Hadoop伪分布式模式部署 HDFS（root用户）

Hadoop伪分布式模式Hadoop2.x：官网：hadoop.apache.org三个组件：HDFS：分布式文件系统，存储MapReduce：分布式计算Yarn：资源（cpu + memory）和JOB调度监控文档地址： http://hadoop.apache.org/docs/r2.8.2/部署方式：1.单机模式（Standalone）：1个Java进程2.伪分布模式（Pse...

原创 2018-05-15 12:44:43 · 387 阅读 · 1 评论
【若泽大数据实战第十天】Hadoop 伪分布式部署(MapReduce+Yarn) -- 时间戳概念

前言：前面的阶段J哥讲了jps hdfs，接下来，学一学yarn的配置首先打开官网可以看到一些有关于yarn的信息官网地址：http://hadoop.apache.org/docs/r2.8.4/hadoop-project-dist/hadoop-common/SingleCluster.html1.Yarn伪分布式部署MapReduce + YarnYarn的两个进程: Resou...

原创 2018-05-18 16:40:19 · 801 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop 参数

前言：Hadoop三个参数文件，我不是很理解，我网上找了一篇学习下配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop...

转载 2018-05-17 23:43:16 · 540 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop用户重新部署伪分布式（HDFS）

前言：上次课我们部署的使用的root用户，在生产环境中，不可能给你root用户，我们就创建一个hadoop用户来部署Hadoop用户重新部署hdfs步骤1.创建Hadoop用户# useradd hadoop# id hadoop# passwd haddop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh，确保其是运行的查...

原创 2018-05-17 18:06:07 · 292 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop jps 详解 - jps报27342 -- process information unavailable

Haoop jps 详解jps最主要的功能使查看java接口的进程号jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有 java 进程 pid 的命令，简单实用，非常适合在 linux/unix 平台上简单察看当前java进程的一些简单情况。注：jps命令有个地方很不好，似乎只能显示当前用户的java进程，要显示其他用户...

原创 2018-05-17 18:09:29 · 1241 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop用户启动hdf三个进程

前言：再上次的课程中我们配置了root用户来启动了hdfs，hdfs-site.xml内的参数都是官方默认的参数，所以启动项没有整理比较乱，为了做生产标准统一规范使用，我要用hadoop用户启动hdfs进程的启动显示全部为hadoop-01的主机名，先看看root用户下启动的情况可以看到namenodes datanode sercondary namenodes 进程启动的名称都不xiang，接...

原创 2018-05-17 13:42:38 · 460 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop伪分布式部署 HDFS （hadoop用户）

Hadoop部署的三种模式单机模式（standalone）一般不建议安装，网络上很少这方面资料单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程...

原创 2018-05-15 13:54:10 · 354 阅读 · 0 评论
【若泽大数据实战第十天】Hadoop与root用户配置ssh免密码登录

Hadoop用户配置ssh1.创建Hadoop用户# useradd hadoop# id hadoop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh，确保其是运行的查看：默认是已经安装 hadoop]$ sudo service sshd status3.配置hadoop用户的ssh的信任关系~]$ ssh-ke...

原创 2018-05-17 11:04:12 · 418 阅读 · 0 评论
【若泽大数据实战第五天】MySQL二进制部署

QQ猴大数据测试平台MySQL环境搭建一、介质需求：本次安装MySQL5.6版本，目前MySQL已经更新到了8.0版二、CentOS自带MySQL卸载：CentOS6.5会自带MySQL的服务，组件，客户端等是之前5.1版本所遗留的，如不删除干净，会对以后使用的MySQL造成一定的BUG，所以我会先将之前的一些组件目录，配置文件等删除和卸载。1、使用命令查看当前安装MySQL的情况：[root@h...

原创 2018-05-09 12:53:22 · 516 阅读 · 0 评论
【若泽大数据实战第四天】大数据Linux命令汇总

第三天课程笔记1. 查看当前ip - linux# ifconfig查看当前ip - windowscmd -> ipconfig2.CRT/XSHELL 链接 Linux3.文件创建 vi 和 touch xxx.log 创建一个空的文件结果: 4.文件夹创建 mkdir xxx 创建1层 mkdir -p 1/2/3 连续创建3层 mkdir 4 5 6 同层1下子创建3...

原创 2018-05-09 12:43:52 · 872 阅读 · 0 评论
【若泽大数据实战第五天】jdk1.8安装

jdk1.8安装，tar解压，用户组发生变化，需要调整：[root@hadoop-01 java]# mkdir -p /usr/java[root@hadoop-01 java]# cd /usr/java/[root@hadoop-01 java]# mv /software/jdk-8u45-linux-x64.gz ./[root@hadoop-01 java]# tar -xzvf jd...

原创 2018-05-09 10:37:16 · 315 阅读 · 0 评论
【若泽大数据实战第七天】MySQL常用命令和SQL语法

MySQL的基本概念：database db ：数据库table ：表db1：t1, t2, t3db2：t2, t3, t4字段类型：http://www.runoob.com/mysql/mysql-data-types.html整数型：int小数型：float/double字符：char字符串：varchar时间：timestamp常规命令：使用某个数据库： ...

原创 2018-05-12 16:23:11 · 345 阅读 · 0 评论
【若泽大数据实战第六天】大数据平台DB监控软件 dbeaver安装+jdk1.8

一.安装dbeaver需要先需要安装jdk工具 jdk-8u171-windows-x64.exe二、配置环境变量： 1. 打开环境变量配置。计算机→属性→高级系统设置→高级→环境变量，在系统变量中配置。 2. 配置JAVA_HOME。新建，变量名JAVA_HOME，变量值，jdk路径，我的路径是C:\Program Files\Java\jdk1.8.0_171，保存...

原创 2018-05-13 12:01:30 · 2461 阅读 · 1 评论
【若泽大数据实战第十一天】HDFS启动过程详解

前言：整理HDFS整个启动的详细过程Namenode保存文件系统元数据镜像，namenode在内存及磁盘（fsimage和editslog）上分别存在一份元数据镜像文件，内存中元数据镜像保证了hdfs文件系统文件访问效率，磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的两类文件组成：fsimage文件：保存文件系统至上次checkpoint为止目录和文件元数据。edit...

原创 2018-05-21 20:08:36 · 410 阅读 · 0 评论
【若泽大数据实战第十一天】Hadoop生态系统官网、下载地址、文档

Apache版本： Hadoop官网：http://hadoop.apache.org/Hadoop下载：http://mirror.bit.edu.cn/apache/hadoop/common/Hadoop历史版本下载：http://archive.apache.org/dist/hadoop/core/Hadoop文档：http://hadoop.apache.org/docs/Hive官网...

原创 2018-05-21 16:44:09 · 580 阅读 · 0 评论
【若泽大数据实战第十一天】HDFS课程 - 副本数 Block Namenode、datanode、、SecondaryNameNode

前言：我把kafka的前置课程写完了，对kafka有了一定的了解，接下去我将把HDFS的课程写的详细一些。1.HDFS进程NameNode（NN）：名称节点 -> client第一个操作的对象DataNode（DN）：数据节点 --> 存储数据的 Secondary NameNode（SNN）--> 第二名称节点2.block（数据块）block大小：默认...

原创 2018-05-20 18:25:58 · 1849 阅读 · 0 评论
【若泽大数据实战第十一天】Kafka（前置课彩蛋）

前言：HDFS在上几次课程中最多用的就是 ./start-dfs.sh 启动命令或者格式化 hdfs namenode -format,今天课程有个小小的彩蛋，讲了一些关于kafka的内容，我将相关的kafka的信息自己做了一些补充Kafka 消息系统app -----> Flum（收集）---> kafka ----->计算（Spark,Flink）夯住或者作业失败 ...

原创 2018-05-20 15:17:05 · 1034 阅读 · 0 评论
【若泽大数据实战第九天】Hadoop 编译

Hadoop:1.官网：http://hadoop.apache.org/2.Hadoop的狭义和褒义认识：狭义：软件(HDFS、MapReduce、Yarn)褒义：以Hadoop为主的生态圈3.Hadoop版本Hadoop1.x： HDFS：分布式文件系统，存储 MapReduce：分布式计算+资源调度和作业调度Hadoop2.x HDFS：存储 MapR...

原创 2018-05-14 10:07:54 · 531 阅读 · 1 评论
【若泽大数据实战第三天】Linux命令进阶

Linux基本命令：用户和用户组的常用命令（IT运维）：查看用户目录： ll /usr/sbin/user*查看用户组目录： ll /usr/sbin/group*查看用户： ll /usr/sbin/user*查看用户组： ll /usr/sbin/group*添加用户：useradd xxx删除之后如果再次创建的时候会提示家目录...

原创 2018-05-07 11:59:18 · 405 阅读 · 0 评论
【若泽大数据实战第二天】Linux命令基础

Linux基本命令：查看IP：ifconfig 或者 hostname -i（需要配置文件之后才可以使用）ipconfig（Windows）关闭防火墙：Service iptables statuschkconfig iptables off配置静态IP地址：vi /etc/sysconfig/network-scripts/ifcfg-eth0 ONBOOT=yes NM...

原创 2018-05-07 11:58:00 · 436 阅读 · 0 评论
【若泽大数据实战第十一天】HDFS文件的读写操作剖析

前言：对于HDFS文件的读写解析，我总结了一下的一些概念一、HDFS的一些基本概念：数据块（block）：大文件会被分割成多个block进行存储，block大小默认为64MB。每一个block会在多个datanode上存储多份副本，默认是3份。namenode：namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode：datanod...

原创 2018-05-20 10:17:32 · 344 阅读 · 0 评论

【若泽大数据】零基础班实战

作者: 强悍de巨人

【若泽大数据实战第二十天】Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop help

【若泽大数据实战第十二天】HDFS HA的 一些补充 【转】

【若泽大数据实战第十二天】HDFS课程 读流程-写流程

【若泽大数据实战第十五天】关于HDFS、YARN及MapReduce的总结

【若泽大数据实战第十七天】Hadoop-2.6.0-cdh5.7.0安装详解

【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结

【若泽大数据实战第七天】MySQL在DBeaver上的使用

【若泽大数据实战第十八天】Hive - DML 分区表 内部函数

【若泽大数据实战第十九天】自定义函数sayhello 注册到hive 源码中，并且重新编译hive

【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数

【若泽大数据实战第十八天】Hive - 常用建表及语法

【若泽大数据实战第十八天】Hive - DML整理版

【若泽大数据实战第十七天】Hive - DDL 整理版

【若泽大数据实战第十八天】Hadoop MySQL 服务自启动配置

【若泽大数据实战第十五天】HDFS编程 IDEA创建一个Maven的scala的模板工程

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

【若泽大数据实战第十四天】YARN 生产详解

【若泽大数据实战第十八天】Hive - 创建测试表dual的使用

【若泽大数据实战第十三天】MapReduce 详解

【若泽大数据实战第九天】Hadoop伪分布式模式部署 HDFS（root用户）

【若泽大数据实战第十天】Hadoop 伪分布式部署(MapReduce+Yarn) -- 时间戳概念

【若泽大数据实战第十天】Hadoop 参数

【若泽大数据实战第十天】Hadoop用户重新部署伪分布式（HDFS）

【若泽大数据实战第十天】Hadoop jps 详解 - jps报27342 -- process information unavailable

【若泽大数据实战第十天】Hadoop用户启动hdf三个进程

【若泽大数据实战第十天】Hadoop伪分布式部署 HDFS （hadoop用户）

【若泽大数据实战第十天】Hadoop与root用户配置ssh免密码登录

【若泽大数据实战第五天】MySQL二进制部署

【若泽大数据实战第四天】大数据Linux命令汇总

【若泽大数据实战第五天】jdk1.8安装

【若泽大数据实战第七天】MySQL常用命令和SQL语法

【若泽大数据实战第六天】大数据平台DB监控软件 dbeaver安装+jdk1.8

【若泽大数据实战第十一天】HDFS启动过程详解

【若泽大数据实战第十一天】Hadoop生态系统官网、下载地址、文档

【若泽大数据实战第十一天】HDFS课程 - 副本数 Block Namenode、datanode、、SecondaryNameNode

【若泽大数据实战第十一天】Kafka（前置课彩蛋）

【若泽大数据实战第九天】Hadoop 编译

【若泽大数据实战第三天】Linux命令进阶

【若泽大数据实战第二天】Linux命令基础

【若泽大数据实战第十一天】HDFS文件的读写操作剖析

【若泽大数据实战第十二天】HDFS HA的一些补充【转】

【若泽大数据实战第十二天】HDFS课程读流程-写流程

【若泽大数据实战第十八天】Hive - DML 分区表内部函数