自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 hive内置函数及总结

1.hive内置函数  hive的内置函数有很多,大部分和mysql的一样,就不在详细介绍了。主要介绍一下自定义函数  和具体的案例。  ①WordCount案例使用hive sql语句实现WordCount。...

2018-11-17 15:56:18 3056

原创 hive操作

1.视图  ①概念视图里存放的是一组SQL语句,通过执行这组SQL语句可以得到相应的结果。视图并不是直接存放结果,而是存放了SQL语句,当用到时,就会执行。是一个懒加载的。  ②特点 不支持物化视图 只能查询,不能做加载数据操作 load data into 视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询 视图定义中若包含了ORDER BY/LIM...

2018-11-12 20:14:25 198

原创 hive中的几种表

1.hive中表的类型内部表(受控表):当删除内部表的时候,hdfs上的数据以及元数据都会被删除。外部表:当删除外部表的时候,HDFS上的数据不会被删除,但是元数据会被删除。临时表(测试环境):在当前会话期间内存在,会话结束自动消失,生命周期随之session。分区表:将一批数据分成多个目录来存储。分桶表:2.内部表创建表的方式有三种:List item...

2018-11-09 17:10:55 9731

原创 Hive简介

1.hive概念  hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。hive依赖于HDFS和MapReduce。2.hive功能  ...

2018-11-05 20:03:45 384

原创 html+css+js实现简易聊天样式

文章目录1、简述2、效果图3、核心代码1、简述因为项目需求,就做了一个简易的聊天室。2、效果图3、核心代码<!DOCTYPE html><html><head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"> <title>demo聊天样式</title> <style

2018-11-02 19:08:02 1258

原创 在eclipse中实现MapReduce

1.准备环境Windows下的Hadoop的mapred-site.xml 和 yarn-site.xml配置文件更新为和虚拟机中的一样。将mapred-site.xml和yarn-site.xml配置文件拷贝到工程下。添加依赖包。2.运行模式本地运行(在本地的eclipse中启动多个线程来模拟map task,和reduce task执行)。主要用于测试环境。  需要修改mapr...

2018-10-19 20:23:59 817

原创 MapReduce运行架构

1.Hadoop1.x版本运行架构是一个主从架构。主节点是JobTracker,从节点是TaskTracker主要流程:  客户端运行一个应用程序,然后JobTracker会向NameNode发送请求,请求这个应用程序需要的数据在哪个DataNode上。然后JobTracker会向有数据的TaskTracker发消息,让它分配一些资源出来,我要发布任务去执行。JobTracker的作用: ...

2018-10-18 11:12:16 266

原创 MapReduce的原理

1.什么是MapReduce?  MapReduce是一个分布式的计算框架。它由两部分组成Map和Reduce。2.MapReduce的主要思想  分久必合。3.MapReduce的核心思想  “相同的key为一组,一组调用一次reduce方法”。4.MapReduce分布式计算原理  主要流程:block中的数据会以&lt;key,value&gt;的形式进入map task...

2018-10-16 21:13:21 212

原创 通过eclipse操作HDFS集群

1.准备环境配置本机的HADOOP_HOME替换bin目录修改用户名,在环境变量中增加 HADOOP_USER_NAME导入jar包安装插件,方便在eclipse中操作HDFS集群。在eclipse安装目录中增加dropins/plugins目录,在里面添加一个hadoop-eclipse-plugin-2.6.0.jar包。然后重启eclipse。2.Java API操作HD...

2018-10-16 19:50:33 445

原创 分布式存储hdfs知识点脑图

2018-10-14 22:16:24 367

原创 高可用的完全分布式HDFS集群搭建

1.集群规划2.搭建步骤(1)配置免密登录在这些节点之间实现免密登录node01-&gt;node01,node01-&gt;node02,node01-&gt;node03,node01-&gt;node04,node02-&gt;node01①所有节点执行 ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa②在node01节点执行,将node01的...

2018-10-13 12:07:51 181

原创 高可用的完全分布式HDFS集群原理

1.什么是高可用的完全分布式HDFS?因为在完全分布式的HDFS集群中,如果NameNode挂掉了,整个集群就会停止工作,所以在高可用的完全分布式集群中增加了一个备用的NameNode节点。架构如图:2.各个角色的作用DataNode:存储block块,向Active NameNode汇报并发送心跳Active NameNode:正在工作的NameNode,作用有管理元数据,管理Dat...

2018-10-13 11:21:54 302

原创 搭建HDFS完全分布式

搭建完全分布式1.什么是完全分布式?将各个角色的进程在不同的节点启动2.步骤(1)划分角色 node01:Namenodenode02:SecondaryNamenode,DataNodenode03:DataNodenode04:DataNode(2)时间同步①各个节点安装ntp命令 yum install ntp②上网查找最新的时间服务器 如:ntp1.aliyun.com...

2018-10-11 11:14:14 131

原创 大数据分布式存储操作

大数据分布式存储操作1.搭建集群角色=进程搭建集群的模式分为三种:①伪分布式在一台服务器上,启动多个进程,分别表示多个角色②完全分布式在多台服务器上,每台服务器启动不同角色的进程,使用多台服务器组成HDFS集群block副本数+自己本身&lt;=DataNode节点数③高可用的完全分布式因为namenode有可能会挂掉,所以在这中模式中,会对namenode做一个备份2.搭建...

2018-10-09 21:09:14 656

原创 大数据分布式存储原理

大数据基础1.什么是大数据短时间内快速的产生海量的多种多样的有价值的数据2.大数据技术2.1 分布式存储2.2 分布式计算① 分布式批处理(无法实现预测)存一段时间的数据,等到将来某一时刻时再进行处理② 分布式流处理(实时处理)(无法实现预测)数据不需要攒,直接处理,每产生一条数据,立马对这条数据进行处理。2.3 机器学习可以实现预测3.分布式存储原理3.1主要概念:元数...

2018-10-09 20:43:39 5268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除