- 博客(10)
- 收藏
- 关注
转载 Hive 企业级调优
1 Fetch 抓取Fectch 抓取是指对某些情况下的查询不必使用 MapReduce 计算将 hive.fetch.task.conversion 设置成 more,在全局查找、字段查找、limit查找等都不走 MapReduce 2 本地模式多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的,不过,有时 Hive 的输入数据量是非常小的,在这种情...
2019-09-13 15:32:42 160
转载 Hadoop HA
HA 概述所谓HA(High Available),即高可用(7*24小时不中断服务)实现高可用最关键的策略是消除单点故障,HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HAHadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)NameNode 主要在以下两个方面影响 HDFS 集群NameNode 机器发生意...
2019-09-08 22:35:57 246
转载 Hadoop 企业优化
1 MapReduce 跑的慢的原因2 MapReduce 优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。2.1 数据输入2.2 Map 阶段2.3 Reduce 阶段2.4 IO 传输2.5 数据倾斜问题2.6 常用的调优参数2.6.1 资源相关参数以下参数是在用户自己的MR应...
2019-09-07 01:49:40 100
转载 Hadoop 之 Yarn
1 概述Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2 Yarn 基本架构3 Yarn 工作机制工作机制详解:1)MR 程序提交到客户端所在的节点。2)YarnRunner 向 ResourceManager 申请一个 Application。3)RM 将该...
2019-09-07 01:23:04 101
转载 Hadoop 之 数据压缩
1 概述压缩策略和原则2 MR 支持的压缩编码压缩格式hadoop自带算法文件扩展名是否可切分换成压缩格式后,原程序是否需要修改DEFLATE是,直接使用DEFLATE.deflate否和文本处理一样,不需要修改Gzip是,直接使用DEFLATE.gz否和文本处理一样,不需要修改bzip2是,直接使用bzip2.bz2是...
2019-09-07 01:16:39 181
转载 Hadoop 之 MapReduce
1 MapReduce 概述MapReduce 是一个分布式运算程序的编程框架,是用户开发基于 Hadoop 的数据分析应用的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop 集群上。1.1 MapReduce 优缺点优点:MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程...
2019-09-07 01:01:16 150
转载 Hadoop 之 HDFS
1 HDFS 概述1.1 HDFS 产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文...
2019-09-07 00:55:36 107
转载 Hadoop 入门
1 大数据概率大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息增长。主要解决海量的存储和海量数据的分析计算问题。1.1 大数据的特点Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)1.2 大数据应用场景物流仓储:大数据分析系...
2019-08-30 15:28:05 127
转载 Mysql 高级
1 MySQL 的架构介绍1.1 sql_modesql_mode 是一个容易忽视的变量,默认情况下为空,可以忍耐一些非法操作,在生产环境中,必须将其设置为严格模式,在开发测试环境中配该变量也是很有必要的,因为这样可以在生产之前发现问题。sql_mode 常用值如下:ONLY_FULL_GROUP_BY:对于 GROUP BY 聚合操作,如果在 SELECT 中的列没有在 GROUP B...
2019-08-29 17:02:36 158
转载 Mock.js
1 Mock.js 简介1.1 什么是 Mock.js?Mock.js 是一款模拟数据生成器,旨在帮助前端攻城师独立于后端进行开发,帮助编写单元测试。1.2 Mock.js安装在 CMD 输入如下命令:cnpminstallmockjs 2 语法规范Mock.js 的语法规范包括两部分:数据模板定义规范(Data Template Definition,DTD)数据占位...
2019-08-20 11:07:16 93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人