dmbds20-CSDN博客

原创 hive内置函数及总结

1.hive内置函数 hive的内置函数有很多，大部分和mysql的一样，就不在详细介绍了。主要介绍一下自定义函数和具体的案例。 ①WordCount案例使用hive sql语句实现WordCount。...

2018-11-17 15:56:18 3056

原创 hive操作

1.视图 ①概念视图里存放的是一组SQL语句，通过执行这组SQL语句可以得到相应的结果。视图并不是直接存放结果，而是存放了SQL语句，当用到时，就会执行。是一个懒加载的。 ②特点不支持物化视图只能查询，不能做加载数据操作 load data into 视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询视图定义中若包含了ORDER BY/LIM...

2018-11-12 20:14:25 198

原创 hive中的几种表

1.hive中表的类型内部表(受控表)：当删除内部表的时候，hdfs上的数据以及元数据都会被删除。外部表：当删除外部表的时候，HDFS上的数据不会被删除，但是元数据会被删除。临时表(测试环境)：在当前会话期间内存在，会话结束自动消失，生命周期随之session。分区表：将一批数据分成多个目录来存储。分桶表：2.内部表创建表的方式有三种：List item...

2018-11-09 17:10:55 9731

原创 Hive简介

1.hive概念 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。hive依赖于HDFS和MapReduce。2.hive功能 ...

2018-11-05 20:03:45 384

原创 html+css+js实现简易聊天样式

文章目录1、简述2、效果图3、核心代码1、简述因为项目需求，就做了一个简易的聊天室。2、效果图3、核心代码<!DOCTYPE html><html><head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"> <title>demo聊天样式</title> <style

2018-11-02 19:08:02 1258

原创在eclipse中实现MapReduce

1.准备环境Windows下的Hadoop的mapred-site.xml 和 yarn-site.xml配置文件更新为和虚拟机中的一样。将mapred-site.xml和yarn-site.xml配置文件拷贝到工程下。添加依赖包。2.运行模式本地运行(在本地的eclipse中启动多个线程来模拟map task,和reduce task执行)。主要用于测试环境。需要修改mapr...

2018-10-19 20:23:59 817

原创 MapReduce运行架构

1.Hadoop1.x版本运行架构是一个主从架构。主节点是JobTracker,从节点是TaskTracker主要流程：客户端运行一个应用程序，然后JobTracker会向NameNode发送请求，请求这个应用程序需要的数据在哪个DataNode上。然后JobTracker会向有数据的TaskTracker发消息，让它分配一些资源出来，我要发布任务去执行。JobTracker的作用： ...

2018-10-18 11:12:16 266

原创 MapReduce的原理

1.什么是MapReduce？ MapReduce是一个分布式的计算框架。它由两部分组成Map和Reduce。2.MapReduce的主要思想分久必合。3.MapReduce的核心思想 “相同的key为一组，一组调用一次reduce方法”。4.MapReduce分布式计算原理主要流程：block中的数据会以<key,value>的形式进入map task...

2018-10-16 21:13:21 212

原创通过eclipse操作HDFS集群

1.准备环境配置本机的HADOOP_HOME替换bin目录修改用户名，在环境变量中增加 HADOOP_USER_NAME导入jar包安装插件，方便在eclipse中操作HDFS集群。在eclipse安装目录中增加dropins/plugins目录，在里面添加一个hadoop-eclipse-plugin-2.6.0.jar包。然后重启eclipse。2.Java API操作HD...

2018-10-16 19:50:33 445

原创分布式存储hdfs知识点脑图

2018-10-14 22:16:24 367

原创高可用的完全分布式HDFS集群搭建

1.集群规划2.搭建步骤(1)配置免密登录在这些节点之间实现免密登录node01->node01,node01->node02,node01->node03,node01->node04,node02->node01①所有节点执行 ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa②在node01节点执行，将node01的...

2018-10-13 12:07:51 181

原创高可用的完全分布式HDFS集群原理

1.什么是高可用的完全分布式HDFS？因为在完全分布式的HDFS集群中，如果NameNode挂掉了，整个集群就会停止工作，所以在高可用的完全分布式集群中增加了一个备用的NameNode节点。架构如图：2.各个角色的作用DataNode：存储block块，向Active NameNode汇报并发送心跳Active NameNode：正在工作的NameNode，作用有管理元数据，管理Dat...

2018-10-13 11:21:54 302

原创搭建HDFS完全分布式

搭建完全分布式1.什么是完全分布式？将各个角色的进程在不同的节点启动2.步骤(1)划分角色 node01:Namenodenode02:SecondaryNamenode,DataNodenode03:DataNodenode04:DataNode(2)时间同步①各个节点安装ntp命令 yum install ntp②上网查找最新的时间服务器如:ntp1.aliyun.com...

2018-10-11 11:14:14 131

原创大数据分布式存储操作

大数据分布式存储操作1.搭建集群角色=进程搭建集群的模式分为三种：①伪分布式在一台服务器上，启动多个进程，分别表示多个角色②完全分布式在多台服务器上，每台服务器启动不同角色的进程，使用多台服务器组成HDFS集群block副本数+自己本身<=DataNode节点数③高可用的完全分布式因为namenode有可能会挂掉，所以在这中模式中，会对namenode做一个备份2.搭建...

2018-10-09 21:09:14 656

原创大数据分布式存储原理

大数据基础1.什么是大数据短时间内快速的产生海量的多种多样的有价值的数据2.大数据技术2.1 分布式存储2.2 分布式计算① 分布式批处理（无法实现预测）存一段时间的数据，等到将来某一时刻时再进行处理② 分布式流处理（实时处理）（无法实现预测）数据不需要攒，直接处理，每产生一条数据，立马对这条数据进行处理。2.3 机器学习可以实现预测3.分布式存储原理3.1主要概念：元数...

2018-10-09 20:43:39 5268

dmbds20的博客