自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kissshotのblog

POSITION ZERO

  • 博客(11)
  • 收藏
  • 关注

原创 大数据09--Hive表的操作(未整理完)

HiveHive表的类型内部表外部表临时表分区表静态分区表动态分区表分桶表函数Hive Shell的常用操作Hive表的类型内部表创建表CREATE TABLE gfstbl( id INT, name STRING, age INT, gfs ARRAY<STRING>, address MAP<STRING,STRING>, info...

2018-10-24 20:19:13 238

原创 大数据笔记08--Hive原理和搭建

Hive什么是HiveHive的架构架构图架构描述hql解析搭建Hive本地方式(内嵌derby)步骤问题Local(mysql)步骤问题远程(remote)模式步骤问题什么是Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速...

2018-10-23 09:47:10 238

原创 大数据笔记07--MR案例开发

三个案例wordcountwordcount

2018-10-23 09:46:30 312 1

原创 大数据笔记06--YARN的搭建与MR调优

YARNyarn的搭建集群规划配置测试案例wordcount使用MapReduce提供的测试用例wordcountyarn的搭建集群规划配置修改配置文件mapred-sitex.xml<property> <name>mapreduce.framework.name</name&amp

2018-10-18 18:21:18 249

原创 大数据笔记05--MapReduce

MapReduce什么是MapReduceMR的主要思想MR分布式计算原理处理流程map taskreduce task总结什么是MapReduceHadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte ...

2018-10-16 20:56:56 232

原创 如何访问局域网内其他电脑上虚拟机内搭建的HDFS

文章目录原因问题分析操作步骤原因在学校机房的电脑上用四台虚拟机搭建了高可用的完全分布式HDFS,然后想使用自己的笔记本电脑上的eclipse进行开发,但虚拟机网络设置为NAT连接,所以无法通过ip直接访问虚拟机,故寻找从外部连接虚拟机的方法。(没有尝试桥接方式,不了解桥接方式下如何操作,本文仅考虑NAT方式)问题分析NAT方式连接的虚拟机,其ip为内部地址,只有宿主机是真正的公网ip。虚拟...

2018-10-15 17:40:17 2811

原创 大数据笔记04--HDFS接口

HDFS API搭建集群客户端原因搭建步骤配置开发环境JAVA操作HDFSFileSystem类的常用方法示例代码错误处理搭建集群客户端原因集群内操作会产生由硬件导致的数据倾斜问题:若每次上传都是选择某台DN作为客户端,根据默认备份机制,block会优先存储到本机DN,导致该节点磁盘IO大大超过其他节点;同时,block副本会由此节点向其他节点分发,导致网络IO负载过高,久而久之该节点性能...

2018-10-13 12:02:36 325

原创 大数据笔记00--大数据的历史

三驾马车GFSGoogle File System,GFS是谷歌的一个分布式文件系统,用来存储大量的较大文件,它可以在廉价的硬件上实现存储文件,并具有良好的容错性由此思想后来诞生了HDFSMapReduceMapReduce是一个分布式计算框架。它通过map函数把基于行的输入转化成不同的键值对,再通过reduce函数把这些键值对针对相同的键进行聚合,并在聚合的过程中进行相应的计算由此思...

2018-10-12 22:47:24 149

原创 大数据笔记03--高可用的完全分布式HDFS及HDFS操作

常用操作上传文件:hdfs dfs -put a /testhdfs dfs -copyFromLocal a /test (同-put)hdfs dfs -moveFromLocal a /test创建新目录:hdfs dfs -mkdir ./test-p 级联创建向文件中追加内容:hdfs dfs -appendToFile b /test/a查看文件:hdfs ...

2018-10-12 20:26:47 250

原创 大数据笔记02--HDFS的搭建

HDFS搭建三种模式伪分布式完全分布式高可用的完全分布式三种模式伪分布式完全分布式高可用的完全分布式

2018-10-12 20:26:37 201

原创 大数据笔记01--大数据概述

大数据基础什么是大数据大数据的技术1. 分布式存储2. 分布式计算分布式批处理分布式流处理什么是大数据短时间内快速的产生海量的多种多样的有价值的数据大数据的技术1. 分布式存储Hadoop分布式文件系统,Hadoop Distributed File System(简称HDFS)2. 分布式计算分布式批处理即攒一段时间的数据,然后在未来的某一个时间进行处理分布式流处理即数据不需...

2018-10-09 21:45:26 472

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除