Crazy_Clown-CSDN博客

原创自定义函数----（包含永久性创建函数）

一、UDF1.UDF是一个简单的函数，可以用于我们的hive仓库，可以自定义内容，方便我们hive仓库的使用，提高我们的效率。2.UDF、UDAF、UDTFUDF:一对一继承UDF 重写evaluate方法（实现传入的参数，并且封装了很多的方法）。UDAF:多对一UDTF:一对多二、UDF使用1.创建UDF自定义函数package com.simple.test;import...

2019-06-22 08:16:00 553 1

原创 hive命令深入理解---------分区表和分桶表

一、导入数据操作1.load data local inpath ‘本地路径’ into table 数据库名.表名; （直接表名好像也可以）将本地的数据导入到hive仓库中例如： load data local inpath ‘/root/test.txt’ into table t.user01;2.load data inpath ‘hdfs://本机名:端口号及路径’ in...

2019-06-20 22:06:18 1009

原创 hive(数据仓库工具)

- hive定义hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。- hive安装上传tar包 hive-1.2.1.tar...

2019-06-19 20:28:31 529 1

原创 Zookeeper分布式协调服务

一、Zookeeper安装及配置单机安装 Ip地址 ifconfig 查看 windows能ping通主机名 /etc/hostname Ip映射 hosts Java –version查看java版本解压zookeeper压缩包配置zookeeper环境变量path /etc/prpfile source /etc/profile...

2019-06-18 21:37:28 314

转载大数据架构师：Hadoop和Storm哪一个更好点

首先整体认识：Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。注释：延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。吞吐，指系统单位时间处理的数据量。st...

2019-06-15 07:28:38 172

原创 MapReduce

一、MapReduce简介什么是MapReduce？Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop 集群上Hadoop的四个组件HDFS：分布式存储系统MapReduce：分布式计算系...

2019-06-14 15:33:14 9361 4

原创搭建外部客户端--------eclipse开发

一、配置环境变量jdk的环境变量右击我的电脑，点击属性然后对相应的环境变量进行编辑，并把你的jdk所在的绝对路径复制上去编辑Path把jdk对应的bin的绝对路径复制上去配置hadoop的环境变量第一步同样需要进入到系统的环境变量中这两个环境变量需要我们自己写的并且需要我们自己加入相对应的路径点击新建，名字要取HADOOP_HOME变量值：把自己hadoop-2....

2019-06-13 21:34:18 312

原创 hadoop完全分布式集群搭建---------这个还不错

一、基础操作多个节点（1）需要新建多台虚拟机（2）配置多个节点（虚拟机）的网络映射，列如：vim /etc/hosts注：每一台虚拟机都需要配置多个节点的网络映射（3）cat /etc/sysconfig/network 查看是否是自己的主机名测试网络是否通过 pint www.baidu.com二、配置信息（同步）免密登录在主节点，所有节点执行ssh-keygen...

2019-06-13 11:25:24 400

原创 hadoop伪分布式集群搭建--------来瞅瞅吧

集群搭建一、基础操作上传：yum install lrzsz -y ------可以下载上传操作指令rz -------可以进行上传文件解压：tar -zxvf jdktar -zxvf hadoop-2.6.5.tar.gz如果是克隆多台机器 network中的主机名一定要修改vim /etc/sysconfig/network二、配置文件配置jdk环境变量...

2019-06-12 15:34:12 216 2

原创 SecondaryNamenode------持久化

为什么要用持久化Namenode掌握一批元数据（描述数据的数据）-------放在内存里硬盘：内存大，便宜，但是慢内存：内存小，贵，但是快持久化：当我们的集群因断电等特殊原因产生问题的时候，问题解决，重新开机，会去磁盘上读取元数据，恢复到断电前的状态总之，持久化就是为了保证元数据的安全-----将内存中的数据存放到磁盘中Namenode不会进行持久化的原因可以做：需...

2019-06-11 21:40:02 167

原创初步踏入大数据时代

大数据时代概念：短时间内快速产生大量多种多样的有价值的信息大数据可以概括为5个V数据量大（Volume）类型多（Variety）价值（Value）真实性（Veracity）一、为了解决数据量过大的问题垂直扩展在垂直扩展模型中，想要增加系统负荷就意味着要在系统现有的部件上下工夫，即通过提高系统部件的能力来实现。例如，假设你现在负责一批木材采伐的操作在这个例子中，我们假设有3...

2019-06-10 20:56:52 221 1

原创初识Shell编程

天气：晴发博客的第一天，简单的一些shell编程一、基础概念变量概念：本地局部环境位置name=godlocal-----只能应用于函数export$*-----获取某一个位置的参数（通过{}确定一个整体）运算符算术表达式条件表达式1.$((算术表达式)) 2.‘expr 算术表达式’1.[ expression...

2019-06-10 15:11:35 194

Crazy_Clown的博客