强悍de巨人

也许生于世上,无重要作为,仍有这份积累会留下......

排序:
默认
按更新时间
按访问量

【若泽大数据实战第十九天】自定义函数sayhello 注册到hive 源码中,并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数sayhello  注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-c...

2018-06-17 00:52:52

阅读数:6

评论数:0

【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数

前言:回顾想上期课程,上次课我们讲了聚合函数,多进一出

2018-06-17 00:52:39

阅读数:9

评论数:0

【若泽大数据实战第十八天】Hive - 创建测试表dual的使用

-- 创建 dual 表(只有在测试的时候用insert)hive> create table dual(x string); OK Time taken: 0.282 seconds hive> insert into table dual value...

2018-06-12 00:29:13

阅读数:183

评论数:0

【若泽大数据实战第十八天】Hive - DML 分区表 内部函数

前言:上一堂课回顾总结:大数据开发最主要做底层的优化架构的优化,这些东西才是核心,写代码用的不多,做平台化,开发一个平台直接在页面上拖拽就可以了,底层的数据平台都已经封装好了,只是会某一个功能,只能说是大数据开发的入门,初级程序员做的事。Oracle在大数据几乎不用,只用一些轻量级的数据库。讲了D...

2018-06-11 21:37:20

阅读数:56

评论数:0

【若泽大数据实战第十八天】Hive - 常用建表及语法

创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=p...

2018-06-07 20:06:12

阅读数:49

评论数:0

【若泽大数据实战第十八天】Hive - DML整理版

1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中,update和delete一般不会用,生产数据是不会删除的,常用overwrite和load做数据的转换。insert into values 也一般不会用,离线批处理,一些实时的数据in...

2018-06-07 19:24:27

阅读数:40

评论数:0

【若泽大数据实战第十七天】Hive - DDL 整理版

1. 相关说明DDL=Date Definition Language,数据定义语言。学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。 官方WIKI打开: 浏览器访问...

2018-06-07 19:21:10

阅读数:50

评论数:0

【若泽大数据实战第十八天】Hadoop MySQL 服务自启动配置

配置mysql服务自启动[root@hadoop000 ~]# cd /usr/local/mysql#将服务文件拷贝到init.d下,并重命名为mysql [root@hadoop000 mysql]# cp support-files/mysql.server /etc/rc.d/init.d...

2018-06-07 15:37:04

阅读数:43

评论数:0

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

前言:上一个章节,若泽给我们讲的第一堂课Hive,详细的总结了,有关Hive的各种信息,本次课程讲讲Hive的 DDLDatabaseHive中包含了多个数据库,默认的数据库为default,对应于HDFS目录是/user/hadoop/hive/warehouse,可以通过hive.metast...

2018-06-06 01:02:25

阅读数:114

评论数:0

【若泽大数据实战第十七天】Hadoop-2.6.0-cdh5.7.0安装详解

前言:apache hadoop版本告一段落,现在安装新的cdh版本的hadoop下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk:注册甲骨文账号下载,推荐...

2018-06-03 02:38:47

阅读数:113

评论数:0

【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结

前言:Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have。复习前一个月的课程内容:1、LinuxLinux: 文件(*****) 权限(*****) 压缩/解压(*****) 软件安装: JDK/MySQL/Hadoop/...(***...

2018-06-02 18:43:37

阅读数:165

评论数:2

【若泽大数据实战第十五天】HDFS编程 IDEA创建一个Maven的scala的模板工程

前言:从本次课程正式加入到编程的行列中来,以前编程的经验不多,通过此次学习希望可以获得更多的收获。Hadoop编程创建一个Maven的scala的模板工程新的项目对Maven进行设置选择 scala-tools填写信息修改路径修改项目名称和项目路径,点击【确定】复制代码内容拷贝文件到 IDEA上这...

2018-05-30 19:33:00

阅读数:80

评论数:0

【若泽大数据实战第十五天】IntelliJ IDEA 2017.3.2 永久破解版安装 + Maven安装

前言:从本次课程正式加入到编程的行列中来,以前编程的经验不多,通过此次学习希望可以获得更多的收获。

2018-05-30 15:40:22

阅读数:59

评论数:0

【若泽大数据实战第十四天】YARN 生产详解

前言:上节课我们讲了 MR job的提交Yarn的工作流程Yarn的工作流程MR架构设计Yarn(主从) 资源  + 作业调度管理Yarn:是一种新的 Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了...

2018-05-29 16:21:32

阅读数:101

评论数:0

【若泽大数据实战第十五天】关于HDFS、YARN及MapReduce的总结

前言:有很多小伙伴对这几个东西的概念有些模糊,这里我做一个总结,希望大家能一篇看懂。一、HDFSHDFS是分布式文件系统,有高容错性的特点,可以部署在价格低廉的服务器上,主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者,它保存着文件名和数据块的映射管...

2018-05-27 22:12:51

阅读数:54

评论数:0

【QQ猴实战】大数据早课-day9-2018-5-13

1.排序语法,默认是降序吗2.限制多少行语法3.分组函数有哪些4.分组语法是什么5.分组语法的注意点是什么6.join有哪几种7.left join是哪个表数据全8.union 和union all 区别是什么9.谈谈你们觉得什么是子表10.模糊查询名称name的有s字符的名称有哪些?11.lik...

2018-05-27 08:41:30

阅读数:28

评论数:0

【若泽大数据实战第十三天】MapReduce 详解

前言:上几次的课程围绕着 HDFS详细说了如何读和写的流程,本次课程主要讲MapReduce,我将梳理整套课程的,总结上次课的补充:学会看hadoop的日志:首先找到日志的目录,往下看有好多好多的日志,是不是纠结要看哪一个?请记住找log日志要找.log结尾的,以下红色字体对应每个单词的位置信息。...

2018-05-25 16:30:32

阅读数:75

评论数:0

【若泽大数据实战第十二天】HDFS HA的 一些补充 【转】

HDFS的基本结构如上图所示,HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode:是Master节点,有点类似Linux里的根目录。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameN...

2018-05-23 16:38:29

阅读数:136

评论数:0

【若泽大数据实战第十二天】HDFS课程 读流程-写流程

前言:上期课程J哥给我们讲了很多有关于HDFS内部的namenode,datanode,secondary的各种分析,下面的课程涉及到了读流程和写流程。我也将详细的梳理清楚。HDFS写流程1.文件写流程 --> FSDataOutputStream (面试题)1.1 Clie...

2018-05-23 09:38:50

阅读数:57

评论数:0

【若泽大数据实战第十一天】HDFS启动过程详解

前言:整理HDFS整个启动的详细过程Namenode保存文件系统元数据镜像,namenode在内存及磁盘(fsimage和editslog)上分别存在一份元数据镜像文件,内存中元数据镜像保证了hdfs文件系统文件访问效率,磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的...

2018-05-21 20:08:36

阅读数:76

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭