强悍de巨人-CSDN博客

原创【若泽大数据】Scala下载及环境搭建

一． Scala下载及环境搭建 1.1. Scala介质保你本地以及安装了 JDK 1.5 以上版本，并且设置了 JAVA_HOME 环境变量及 JDK 的bin目录。我们可以使用以下命令查看是否安装了 Java：$ java -versionjava version "1.8.0_31"Java(TM) SE Runtime Environment (build1.8.0_31-b13...

2018-07-10 16:44:57 781 2

原创【若泽大数据实战第二十天】Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop help

Sqoop安装1 下载1. 下载地址http://archive.cloudera.com/cdh5/cdh/5/2. 环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上，并解压[hadoop@hadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组 3 Sqo...

2018-06-25 12:05:40 1049

原创【若泽大数据实战第十九天】自定义函数sayhello 注册到hive 源码中，并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包放在了 /root 下面 cdh 采用 cdh5.7.0 目标：将自定义函数sayhello 注册到hive 源码中，并且重新编译hive1、编写UDF (1)使用idea+maven，在maven中添加相关参数。重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven，文件头修改下，其他可以直...

2018-06-17 00:52:52 563

原创【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数

前言：回顾想上期课程，上次课我们讲了聚合函数，多进一出

2018-06-17 00:52:39 1333

原创【若泽大数据实战第十八天】Hive - 创建测试表dual的使用

-- 创建 dual 表（只有在测试的时候用insert）hive> create table dual(x string);OKTime taken: 0.282 secondshive> insert into table dual values('');Query ID = hadoop_20180611233030_645e070e-77f9-4ea4-8b32-ee3...

2018-06-12 00:29:13 1030

原创【若泽大数据实战第十八天】Hive - DML 分区表内部函数

前言：上一堂课回顾总结：大数据开发最主要做底层的优化架构的优化，这些东西才是核心，写代码用的不多，做平台化，开发一个平台直接在页面上拖拽就可以了，底层的数据平台都已经封装好了，只是会某一个功能，只能说是大数据开发的入门，初级程序员做的事。Oracle在大数据几乎不用，只用一些轻量级的数据库。讲了DDL DML，Hive数据模型的抽象，顶层是Database，下一层是table，再下一层是parti...

2018-06-11 21:37:20 656

原创【若泽大数据实战第十八天】Hive - 常用建表及语法

创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];--案例 create database if n...

2018-06-07 20:06:12 657

原创【若泽大数据实战第十八天】Hive - DML整理版

1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中，update和delete一般不会用，生产数据是不会删除的，常用overwrite和load做数据的转换。insert into values 也一般不会用，离线批处理，一些实时的数据insert场景并不多，这个命令只是从关系型数据库兼容过来的。2. LOAD操作HIVE的DML，从OS或...

2018-06-07 19:24:27 461

原创【若泽大数据实战第十七天】Hive - DDL 整理版

1. 相关说明DDL=Date Definition Language，数据定义语言。学习hive的HQL的DDL相关语法，建议对照官方WIKI，因为语法参数较多，而且和SQL多有相似，不建议记忆，梳理一下，记住相关可以实现的功能和注意点以及和SQL之间的区别即可。官方WIKI打开：浏览器访问 http://hive.apache.org，找到”Getting Started Guide”，...

2018-06-07 19:21:10 711

原创【若泽大数据实战第十八天】Hadoop MySQL 服务自启动配置

配置mysql服务自启动[root@hadoop000 ~]# cd /usr/local/mysql#将服务文件拷贝到init.d下，并重命名为mysql[root@hadoop000 mysql]# cp support-files/mysql.server /etc/rc.d/init.d/mysql #赋予可执行权限[root@hadoop000 mysql]# chmod +x /...

2018-06-07 15:37:04 524

原创【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

前言：上一个章节，若泽给我们讲的第一堂课Hive，详细的总结了，有关Hive的各种信息，本次课程讲讲Hive的 DDLDatabaseHive中包含了多个数据库，默认的数据库为default，对应于HDFS目录是/user/hadoop/hive/warehouse，可以通过hive.metastore.warehouse.dir参数进行配置（hive-site.xml中配置）TableHive中...

2018-06-06 01:02:25 1072

原创【若泽大数据实战第十七天】Hadoop-2.6.0-cdh5.7.0安装详解

前言：apache hadoop版本告一段落，现在安装新的cdh版本的hadoop下载Hadoop和JDK下载Hadoop地址：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk：注册甲骨文账号下载，推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software...

2018-06-03 02:38:47 1853 2

原创【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结

前言：Hadoop的课程已经告一段落，基本上在零基础课程里不会再出现了，接下来的课程由若总来上，第一讲Have。复习前一个月的课程内容：1、LinuxLinux：文件(*****) 权限(*****) 压缩/解压(*****) 软件安装: JDK/MySQL/Hadoop/...(*****)2、MySQLDDL/DML(GROUP BY/JOIN:是大数据处理中的超级杀手:shuffl...

2018-06-02 18:43:37 1439

原创【若泽大数据实战第十五天】HDFS编程 IDEA创建一个Maven的scala的模板工程

前言：从本次课程正式加入到编程的行列中来，以前编程的经验不多，通过此次学习希望可以获得更多的收获。Hadoop编程创建一个Maven的scala的模板工程新的项目对Maven进行设置选择 scala-tools填写信息修改路径修改项目名称和项目路径，点击【确定】复制代码内容拷贝文件到 IDEA上这4个去官网下载个Maven的代码搜索hadoop，点击 hadoop-common地址http://m...

2018-05-30 19:33:00 466

原创【若泽大数据实战第十四天】YARN 生产详解

前言：上节课我们讲了 MR job的提交Yarn的工作流程Yarn的工作流程MR架构设计Yarn（主从）资源 + 作业调度管理Yarn：是一种新的 Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。ResourceManager(RM)：主要接收客户端任务请求，接收和监控NodeManag...

2018-05-29 16:21:32 870 1

原创【若泽大数据实战第十五天】关于HDFS、YARN及MapReduce的总结

前言：有很多小伙伴对这几个东西的概念有些模糊，这里我做一个总结，希望大家能一篇看懂。一、HDFSHDFS是分布式文件系统，有高容错性的特点，可以部署在价格低廉的服务器上，主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者，它保存着文件名和数据块的映射管理，数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上，但是namenode...

2018-05-27 22:12:51 491

原创【QQ猴实战】大数据早课-day9-2018-5-13

1.排序语法，默认是降序吗2.限制多少行语法3.分组函数有哪些4.分组语法是什么5.分组语法的注意点是什么6.join有哪几种7.left join是哪个表数据全8.union 和union all 区别是什么9.谈谈你们觉得什么是子表10.模糊查询名称name的有s字符的名称有哪些?11.like查询语法，比如是第三个字符是s，那么前面是不是要用两个占位符?12.谈谈你们对hadoop的理解13...

2018-05-27 08:41:30 256

原创【若泽大数据实战第十三天】MapReduce 详解

前言：上几次的课程围绕着 HDFS详细说了如何读和写的流程，本次课程主要讲MapReduce，我将梳理整套课程的，总结上次课的补充：学会看hadoop的日志：首先找到日志的目录，往下看有好多好多的日志，是不是纠结要看哪一个？请记住找log日志要找.log结尾的，以下红色字体对应每个单词的位置信息。hadoop-hadoop-datanode-hadoop-01.log 是在hadoop这台机器上启...

2018-05-25 16:30:32 566

转载【若泽大数据实战第十二天】HDFS HA的一些补充【转】

HDFS的基本结构如上图所示，HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode：是Master节点，有点类似Linux里的根目录。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；SecondaryNameNode：保存着NameNode的部分信息（不是全部信息NameNode宕掉之后恢复数据用），是Name...

2018-05-23 16:38:29 494

原创【若泽大数据实战第十二天】HDFS课程读流程-写流程

前言：上期课程J哥给我们讲了很多有关于HDFS内部的namenode，datanode，secondary的各种分析，下面的课程涉及到了读流程和写流程。我也将详细的梳理清楚。HDFS写流程1.文件写流程 --> FSDataOutputStream (面试题)1.1 Client调用FileSystem.create(filePath)方法，去NameNode进行rpc通信，check该路径...

2018-05-23 09:38:50 425

原创【若泽大数据实战第十一天】HDFS启动过程详解

前言：整理HDFS整个启动的详细过程Namenode保存文件系统元数据镜像，namenode在内存及磁盘（fsimage和editslog）上分别存在一份元数据镜像文件，内存中元数据镜像保证了hdfs文件系统文件访问效率，磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的两类文件组成：fsimage文件：保存文件系统至上次checkpoint为止目录和文件元数据。edit...

2018-05-21 20:08:36 465

原创【若泽大数据实战第十一天】Hadoop生态系统官网、下载地址、文档

Apache版本： Hadoop官网：http://hadoop.apache.org/Hadoop下载：http://mirror.bit.edu.cn/apache/hadoop/common/Hadoop历史版本下载：http://archive.apache.org/dist/hadoop/core/Hadoop文档：http://hadoop.apache.org/docs/Hive官网...

2018-05-21 16:44:09 606

原创【若泽大数据实战第十一天】HDFS课程 - 副本数 Block Namenode、datanode、、SecondaryNameNode

前言：我把kafka的前置课程写完了，对kafka有了一定的了解，接下去我将把HDFS的课程写的详细一些。1.HDFS进程NameNode（NN）：名称节点 -> client第一个操作的对象DataNode（DN）：数据节点 --> 存储数据的 Secondary NameNode（SNN）--> 第二名称节点2.block（数据块）block大小：默认...

2018-05-20 18:25:58 1880

原创【若泽大数据实战第十一天】Kafka（前置课彩蛋）

前言：HDFS在上几次课程中最多用的就是 ./start-dfs.sh 启动命令或者格式化 hdfs namenode -format,今天课程有个小小的彩蛋，讲了一些关于kafka的内容，我将相关的kafka的信息自己做了一些补充Kafka 消息系统app -----> Flum（收集）---> kafka ----->计算（Spark,Flink）夯住或者作业失败 ...

2018-05-20 15:17:05 1056

原创【若泽大数据实战第十一天】HDFS详解

前言：网上摘录的一些 hdfs的信息。1. HDFS优缺点1.1 优点1.1.1高容错性可以由数百或数千个服务器机器组成，每个服务器机器存储文件系统数据的一部分；数据自动保存多个副本；副本丢失后检测故障快速，自动恢复。1.1.2适合批处理移动计算而非数据；数据位置暴露给计算框架；数据访问的高吞吐量；运行的应用程序对其数据集进行流式访问。1.1.3适合大数据处理典型文件大小为千兆字节到太字节；支持单...

2018-05-20 10:19:56 890

原创【若泽大数据实战第十一天】HDFS文件的读写操作剖析

前言：对于HDFS文件的读写解析，我总结了一下的一些概念一、HDFS的一些基本概念：数据块（block）：大文件会被分割成多个block进行存储，block大小默认为64MB。每一个block会在多个datanode上存储多份副本，默认是3份。namenode：namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode：datanod...

2018-05-20 10:17:32 360

原创【若泽大数据实战第十一天】HDFS命令操作

前言：刚刚本次课程J哥讲了HDFS，为了对HDFS有更多的理解，我查阅整理下看看有哪些命令，我再进行试验操作一次命令基本格式:hadoop fs -cmd < args >11.lshadoop fs -ls /1列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /1列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < loca...

2018-05-20 10:16:11 291

原创【若泽大数据实战第十天】Hadoop 伪分布式部署(MapReduce+Yarn) -- 时间戳概念

前言：前面的阶段J哥讲了jps hdfs，接下来，学一学yarn的配置首先打开官网可以看到一些有关于yarn的信息官网地址：http://hadoop.apache.org/docs/r2.8.4/hadoop-project-dist/hadoop-common/SingleCluster.html1.Yarn伪分布式部署MapReduce + YarnYarn的两个进程: Resou...

2018-05-18 16:40:19 822

转载【若泽大数据实战第十天】Hadoop 参数

前言：Hadoop三个参数文件，我不是很理解，我网上找了一篇学习下配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop...

2018-05-17 23:43:16 585

原创【若泽大数据实战第十天】Hadoop jps 详解 - jps报27342 -- process information unavailable

Haoop jps 详解jps最主要的功能使查看java接口的进程号jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有 java 进程 pid 的命令，简单实用，非常适合在 linux/unix 平台上简单察看当前java进程的一些简单情况。注：jps命令有个地方很不好，似乎只能显示当前用户的java进程，要显示其他用户...

2018-05-17 18:09:29 1271

原创【若泽大数据实战第十天】Hadoop用户重新部署伪分布式（HDFS）

前言：上次课我们部署的使用的root用户，在生产环境中，不可能给你root用户，我们就创建一个hadoop用户来部署Hadoop用户重新部署hdfs步骤1.创建Hadoop用户# useradd hadoop# id hadoop# passwd haddop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh，确保其是运行的查...

2018-05-17 18:06:07 307

原创【若泽大数据实战第十天】Hadoop用户启动hdf三个进程

前言：再上次的课程中我们配置了root用户来启动了hdfs，hdfs-site.xml内的参数都是官方默认的参数，所以启动项没有整理比较乱，为了做生产标准统一规范使用，我要用hadoop用户启动hdfs进程的启动显示全部为hadoop-01的主机名，先看看root用户下启动的情况可以看到namenodes datanode sercondary namenodes 进程启动的名称都不xiang，接...

2018-05-17 13:42:38 474

原创【若泽大数据实战第十天】Hadoop与root用户配置ssh免密码登录

Hadoop用户配置ssh1.创建Hadoop用户# useradd hadoop# id hadoop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh，确保其是运行的查看：默认是已经安装 hadoop]$ sudo service sshd status3.配置hadoop用户的ssh的信任关系~]$ ssh-ke...

2018-05-17 11:04:12 434

原创【若泽大数据实战第七天】MySQL在DBeaver上的使用

一、创建一张表 create table ruozedata(id int, name varchar(100), age int, age int, createtime timestamp, createuser varchar(100), createuser varchar(100), updateuser varchar(100) )在建表的...

2018-05-16 00:03:48 11925 3

原创【若泽大数据Hadoop实战】Hadoop：4、HDFS详解

架构设计NameNode存储:文件系统的命名空间文件名称文件目录结构文件的属性（权限创建时间副本数）文件对应哪些数据块 –> 这些数据块对应哪些DataNode节点上不会持久化存储这个映射关系，是通过集群的启动和运行时，DataNode定期发送blockReport给NameNode，以此NameNode在【内存】中动态维护这种映射关系。作用：管理文件系统的命名空间。它维护着文件系统树及...

2018-05-15 14:02:10 414

原创【若泽大数据实战第十天】Hadoop伪分布式部署 HDFS （hadoop用户）

Hadoop部署的三种模式单机模式（standalone）一般不建议安装，网络上很少这方面资料单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程...

2018-05-15 13:54:10 364

原创【若泽大数据Hadoop实战】Hadoop：1、Hadoop基础与编译

Hadoop基础大数据概述可以用“5V + 1C”来概括： Variety (多样化） Volume (海量） Velocity (快速） Vitality (灵活） Value (价值性） Complexity (复杂）Hadoop与Hadoop生态圈Hadoop狭义: 软件(HDFS、MapReduce、Yarn)广义: 以hadoop为主的...

2018-05-15 13:52:51 471

空空如也

空空如也