![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
GVTgh
这个作者很懒,什么都没留下…
展开
-
大数据-hadoop集群搭建
hadoop集群搭建集群规划3台服务器5台服务器版本选择原生安装服务器准备hadoop安装集群规划3台服务器服务器名称搭建服务node01DataNode、NodeManager、NameNode、SecondaryNameNode、ResourceManagernode02DataNode、NodeManagernode03DataNode、NodeM...原创 2019-01-04 18:03:50 · 261 阅读 · 0 评论 -
大数据-hive
hivehive简介hive特点hive架构hive与RDBMS的区别hive的数据存储hive数据模型hive部署hive简介基于hadoop的数据仓库工具将结构化的数据文件映射为数据库表提供类SQL的查询功能hive特点可扩展hive可以自由扩展集群的规模,一般情况下不需要重启服务延展性hive支持用户自定义函数,用户可以根据自己的需要来实现自己的函数容错良好的容错...原创 2019-01-26 14:56:10 · 322 阅读 · 0 评论 -
大数据-HA搭建
HA搭建HA架构HA的实现元数据的同步节点规划3节点7节点10节点搭建文档HA架构HA的实现NameNode各节点运行一个ZKFC,通过zookeeper集群进行管理两台NameNode分别是active、standby状态在HA机制下,standby会从qjournal中读取edits文件,更新到自己的内存元数据,承担了SecondaryNameNode的任务,定期完成元数据的合并,...原创 2019-01-25 20:49:44 · 271 阅读 · 0 评论 -
大数据-YARN
YARN任务调度器任务调度器FIFO Scheduler先进先出Capacity Scheduler有两个队列,大任务放到queueA中,小任务放到queueB,会保留资源给小任务,占用了大任务的资源Fair Scheduler根据所有运行的任务,公平的动态分配资源,有延时...原创 2019-01-25 19:08:38 · 185 阅读 · 0 评论 -
大数据-hadoopMapReduce的mrjob实现
MR实现WordCounttop-Ninline方式运行local方式运行提交到集群运行hadoop-streamingWordCountfrom mrjob.job import MRJobclass MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): ...原创 2019-01-07 23:53:46 · 893 阅读 · 0 评论 -
大数据-hadoop
Hadoophadoop核心组件HDFS架构环境搭建配置文件shelllstextmvputrmpython API环境搭建API连接HDFSstatuslistmakedirsrenamedeleteuploaddownloadreadwrite常见错误hadoop核心组件HDFS将文件切分成指定大小的数据块, 并在多台机器上保存多个副本扩展性、容错性、海量数量存储YARN...原创 2019-01-02 20:49:42 · 281 阅读 · 0 评论 -
大数据-hadoop元数据管理
元数据管理元数据三种形式元数据存储机制元数据存储流程checkpoint配置参数数据恢复元数据三种形式内存元数据(meta data)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits)元数据存储机制内存中有一份完整的元数据(meta data)磁盘中有一份“准完整”的元数据镜像文件(fsimage),存在namenode工作目录中meta data = fsi...原创 2019-01-06 20:59:38 · 1533 阅读 · 0 评论