- 博客(11)
- 收藏
- 关注
原创 大数据09--Hive表的操作(未整理完)
HiveHive表的类型内部表外部表临时表分区表静态分区表动态分区表分桶表函数Hive Shell的常用操作Hive表的类型内部表创建表CREATE TABLE gfstbl( id INT, name STRING, age INT, gfs ARRAY<STRING>, address MAP<STRING,STRING>, info...
2018-10-24 20:19:13 239
原创 大数据笔记08--Hive原理和搭建
Hive什么是HiveHive的架构架构图架构描述hql解析搭建Hive本地方式(内嵌derby)步骤问题Local(mysql)步骤问题远程(remote)模式步骤问题什么是Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速...
2018-10-23 09:47:10 239
原创 大数据笔记06--YARN的搭建与MR调优
YARNyarn的搭建集群规划配置测试案例wordcount使用MapReduce提供的测试用例wordcountyarn的搭建集群规划配置修改配置文件mapred-sitex.xml<property> <name>mapreduce.framework.name</name&
2018-10-18 18:21:18 250
原创 大数据笔记05--MapReduce
MapReduce什么是MapReduceMR的主要思想MR分布式计算原理处理流程map taskreduce task总结什么是MapReduceHadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte ...
2018-10-16 20:56:56 232
原创 如何访问局域网内其他电脑上虚拟机内搭建的HDFS
文章目录原因问题分析操作步骤原因在学校机房的电脑上用四台虚拟机搭建了高可用的完全分布式HDFS,然后想使用自己的笔记本电脑上的eclipse进行开发,但虚拟机网络设置为NAT连接,所以无法通过ip直接访问虚拟机,故寻找从外部连接虚拟机的方法。(没有尝试桥接方式,不了解桥接方式下如何操作,本文仅考虑NAT方式)问题分析NAT方式连接的虚拟机,其ip为内部地址,只有宿主机是真正的公网ip。虚拟...
2018-10-15 17:40:17 2822
原创 大数据笔记04--HDFS接口
HDFS API搭建集群客户端原因搭建步骤配置开发环境JAVA操作HDFSFileSystem类的常用方法示例代码错误处理搭建集群客户端原因集群内操作会产生由硬件导致的数据倾斜问题:若每次上传都是选择某台DN作为客户端,根据默认备份机制,block会优先存储到本机DN,导致该节点磁盘IO大大超过其他节点;同时,block副本会由此节点向其他节点分发,导致网络IO负载过高,久而久之该节点性能...
2018-10-13 12:02:36 326
原创 大数据笔记00--大数据的历史
三驾马车GFSGoogle File System,GFS是谷歌的一个分布式文件系统,用来存储大量的较大文件,它可以在廉价的硬件上实现存储文件,并具有良好的容错性由此思想后来诞生了HDFSMapReduceMapReduce是一个分布式计算框架。它通过map函数把基于行的输入转化成不同的键值对,再通过reduce函数把这些键值对针对相同的键进行聚合,并在聚合的过程中进行相应的计算由此思...
2018-10-12 22:47:24 149
原创 大数据笔记03--高可用的完全分布式HDFS及HDFS操作
常用操作上传文件:hdfs dfs -put a /testhdfs dfs -copyFromLocal a /test (同-put)hdfs dfs -moveFromLocal a /test创建新目录:hdfs dfs -mkdir ./test-p 级联创建向文件中追加内容:hdfs dfs -appendToFile b /test/a查看文件:hdfs ...
2018-10-12 20:26:47 251
原创 大数据笔记01--大数据概述
大数据基础什么是大数据大数据的技术1. 分布式存储2. 分布式计算分布式批处理分布式流处理什么是大数据短时间内快速的产生海量的多种多样的有价值的数据大数据的技术1. 分布式存储Hadoop分布式文件系统,Hadoop Distributed File System(简称HDFS)2. 分布式计算分布式批处理即攒一段时间的数据,然后在未来的某一个时间进行处理分布式流处理即数据不需...
2018-10-09 21:45:26 474
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人