Hadoop
hadoop
数据库练兵场
博主简介,本科毕业于北京交通大学,研究生毕业于中国人民大学。现就职于蚂蚁集团Oceanbase团队,花名-靖顺,专注于OceanBase数据库故障根因分析,性能调优。
展开
-
【大数据】——Ubuntu14.04 安装hadoop/spark/scala教程
需要的软件:大体步骤(注意本文所有软件均安装在home/hadoop 文件夹下,下文不在提示)安装ubuntu操作系统 安装JDK,配置环境变量 安装scala,配置环境变量 备份系统,需要几个节点,就克隆几份 对管理节点设置IP,登录名和hosts文件,对每个工作节点设置设置IP,登录名和hosts文件 安装ssh 安装hadoop 配置环境变量,修改配置文件,通过...原创 2018-08-29 17:23:13 · 828 阅读 · 0 评论 -
【大数据】——大数据知识点汇总(持续更新)
一、前言 知乎上有人对大数据平台总结的很好,地址:一文读懂大数据平台二、基础#简单概括安装hadoop的步骤 1).创建 hadoop 帐户。 2).setup.改 IP。 3).安装 java,并修改/etc/profile 文件,配置 java 的环境变量。 ...原创 2019-03-01 20:16:17 · 3119 阅读 · 1 评论 -
【大数据】——Redis使用单线程速度为何快?
一、前言 实习面试时,被问到:Redis使用单线程速度为何快?一下把我问住了,遂回来学习总结一波。二、Redis为什么是单线程 因为CPU不是Redis的瓶颈。Redis的瓶颈最有可能是机器内存或者网络带宽,既然单线程容易实现,而且CPU不会成为瓶颈,那就顺理成章地采用单线程的方案了。(注:redis 单线程指的是网络请求模块使用了一个线程,即一个线程处理...原创 2019-06-11 00:47:56 · 317 阅读 · 0 评论 -
【大数据】——HDFS文件块大小设置原则
一、前言 HDFS 中的文件在物理上是分块存储( block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在 hadoop2.x 版本中是 128M,老版本中是 64M。为什么要设置128M/64M?二、块大小设置原则 1、最小化寻址开销(减少磁盘寻道时间) HDFS的块比磁盘的块大(磁盘的块一般为512字节),其目的...原创 2019-08-08 10:12:25 · 2664 阅读 · 0 评论 -
【大数据】——Hbase总结
一、前言 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行...原创 2019-05-31 01:30:00 · 839 阅读 · 0 评论 -
【大数据】——redis统计信息info
一、前言Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅仅支持简单的key-value类型的数据,同时还提供String,list,set,zset,hash等数据结构的存储。 Redis支持数据的备份,即master-slave模式的数据备份。 性能极高– Redis能读的速度是110000次/s,写的速度是81000次/s...原创 2019-06-06 23:59:58 · 1182 阅读 · 0 评论 -
【大数据】——Hbase中的LSM树
一、前言哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.Right B树存储引擎是B树的持久化实现,不仅支持单条记录的增、删、读、改操作,还支持顺序扫描(B+树的叶子...原创 2019-07-07 10:35:45 · 1760 阅读 · 0 评论 -
【大数据】——Redis总结
一、Redis简介 Redis是一种键值系统,可以用来缓存或存储数据。Redis是“Remote Dictionary Server”(远程字典服务)的缩写,提供了字符串(string),列表(list),哈希(hash),集合(set)和有序集合(sorted set)等5种数据结构,这些数据结构使它成为一种便于使用的键值系统。 Redis是一种内存数据库,这使其在数...原创 2019-07-11 09:45:00 · 547 阅读 · 0 评论 -
【大数据】——Hadoop生态体系
一、Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。也就是 Hadoop 的两大核心:HDFS 和 MapReduce。 1、HDFS(Hadoop Distribu...原创 2019-02-16 23:29:28 · 861 阅读 · 0 评论