![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
大数据相关知识
冥更
٩(๑•̀ω•́๑)۶
展开
-
Impala入门操作
Impala简介 用于处理存储在Hadoop集群中的大量数据的大规模并行处理SQL查询引擎,高性能低延迟 底层基于C++编写 优点 执行数据处理时,不需要对存储在Hadoop上的数据进行转换或移动 可以用传统的SQL处理数据 使用Rarquet文件格式 缺点 不提供对序列化和反序列化的支持 只能读取文本文件,不能读取自定义二进制文件 架构Impala daemon 即所谓的i原创 2021-12-02 21:04:43 · 3068 阅读 · 0 评论 -
HBase的基本操作命令
1. 基本操作命令命令含义实例status显示状态status ‘hadoop1’whoami显示HBase当前用户whoamilist显示当前所有表listcount统计指定表的记录数count ‘user’describe显示表的结构信息describe ‘user’exists检查表是否存在exists ‘user...原创 2020-02-28 18:27:55 · 652 阅读 · 0 评论 -
HBase集群搭建
安装Hbase之前需要先启动Hadoop和zookeeper1. 下载并解压安装包下载Hbase的安装包,下载地址如下:http://archive.apache.org/dist/hbase/2.0.0/hbase-2.0.0-bin.tar.gz解压到对应位置cd /export/softwares/tar -zxf hbase-2.0.0-bin.tar.gz -C /expor...原创 2020-02-25 20:03:31 · 207 阅读 · 0 评论 -
redis配置时的参数详解
/********************************* GENERAL *********************************/// 是否作为守护进程运行daemonize yes // 如以后台进程运行,则需指定一个pid,默认为/var/run/redis.pidpidfile /var/run/redis.pid // Redis默认监听端口port...原创 2020-02-22 14:57:58 · 208 阅读 · 0 评论 -
redis集群配置及介绍
1. redis集群的介绍Redis 集群是一个提供在多个Redis节点之间共享数据的程序集。Redis 集群并不支持同时处理多个键的 Redis 命令,因为这需要在多个节点间移动数据,这样会降低redis集群的性能,在高负载的情况下可能会导致不可预料的错误。Redis 集群通过分区来提供一定程度的可用性,即使集群中有一部分节点失效或者无法进行通讯, 集群也可以继续处理命令请求。Redi...原创 2020-02-22 14:45:01 · 186 阅读 · 0 评论 -
redis的数据操作
redis的数据类型及操作redis当中一共支持五种数据类型,分别是string字符串类型,list列表类型,集合set类型,hash表类型以及有序集合zset类型字符串操作SET key value(指定key的值)GET key value(获取key的值)GETRANGE key m,n(获取key的值的[m,n]的子字符)GETSET key value(重...原创 2020-02-18 19:59:04 · 284 阅读 · 0 评论 -
redis配置及介绍
1. redis的概述Redis(Remote Dictionary Server,远程字典服务)是一种非关系型(NoSQL)数据库 ,它是一个开源的使用 c语言编写的key-value存储系统(区别于MySQL的二维表格的形式存储)Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,实现数据的持久化redis官网地址:https://redis.io/中文网站h...原创 2020-02-18 19:49:08 · 263 阅读 · 0 评论 -
MapReduce的介绍和使用
1. MapReduce介绍1.1 MapReduce的基本思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。MapReduce分为Map和Reduce两个阶段,Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理,这些小任务可以并行计算,彼此间几乎没有依赖关...原创 2020-02-11 11:15:10 · 3035 阅读 · 0 评论 -
MapReduce实例2-数据分区
需求:将数据按照某一列分为两类数据格式:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Btt73zcN-1581055525555)(C:\Users\acer\Desktop\大数据系列笔记\7\1581048781109.png)]Step 1. 定义 Mapper这个 Mapper 程序不做任何逻辑, 也不对 Key-Value 做任何改变, 只是接收...原创 2020-02-07 14:06:24 · 329 阅读 · 1 评论 -
MapReduce实例1-统计文本单词个数
需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数文章目录Step 1. 数据格式准备Step 2. MapperStep 3. ReducerStep 4. 定义主类, 描述 Job 并提交 JobStep 5:将程序打包为jar包Step 6:在集群上运行MapReduce程序Step 1. 数据格式准备创建一个新的文件cd /export/serversvim wor...原创 2020-02-06 19:16:13 · 879 阅读 · 0 评论 -
HDFSAPI应用
1. 配置windows下hadoop环境第一步:将hadoop2.7.5文件夹拷贝到一个没有中文没有空格的路径下面第二步:在windows上面配置hadoop的环境变量: HADOOP_HOME,并将%HADOOP_HOME%\bin添加到path中第三步:把hadoop2.7.5文件夹中bin目录下的hadoop.dll文件放到系统盘: C:\Windows\System32 目录第...原创 2020-02-05 17:26:20 · 255 阅读 · 0 评论 -
hadoop的高可用机制和联邦机制
1. hadoop的高可用机制高可用机制主要是解决NameNode单点故障问题在Hadoop 中,NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。所以在实际应用中一般会使用高可用集群(HA),在hadoop集群中配置两...原创 2020-02-05 17:22:34 · 1346 阅读 · 0 评论 -
HDFS介绍和基本指令
1. HDFS概述HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.2. 应用场景适合的应用场景...原创 2020-02-03 10:09:45 · 410 阅读 · 0 评论 -
HDFS文件的写入和读取过程
HDFS文件写入Client 发起文件上传请求, 通过 RPC 与 NameNode 建立通讯NameNode 检查目标文件是否已存在, 父目录是否存在, 返回是否可以上传Client 请求上传第一个 blockNameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配, 返回可用的 DataNode 的地址如(默认备份数量为3)Client 请求 3 台 DataNo...原创 2020-02-02 15:23:32 · 1618 阅读 · 0 评论 -
hadoop配置及介绍
1. hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案:分布式文件系统(GFS),可用于处理海量网页的存储分布式计算框架MapReduce,...原创 2020-01-30 15:40:20 · 380 阅读 · 0 评论 -
zookeeperAPI应用
1. 新建模块2. 修改依赖打开pom.xml文件,复制以下内容<!-- <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactor...原创 2020-01-27 20:28:52 · 485 阅读 · 0 评论 -
zookeeper介绍和简单入门
1. zookeeper数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点,Znode既具备文件的特性又具有文件夹的特性。Znode 是有路径的, 例如 /data/host1, /da...原创 2020-01-25 20:41:13 · 212 阅读 · 0 评论 -
在IDEA中运行第一个scala程序
首先需要安装IDEA,scala,这些教材挺多的,自行搜索。1. 新建一个工程2. 在项目中创建scala目录,并标记为sourse rootnew->DirectorymakeDirectoryAs->Sources Root3. 添加scala框架原始创建中没有scala Class添加scala框架:add Framewor...原创 2019-11-22 17:04:28 · 13065 阅读 · 1 评论 -
Spark在Win10下的环境搭建
本教程是参考另一个博客完成的,中间解决了一些其他问题,相同部分我就直接复制参考博文,文中大部分贴图不是我按照的版本,不需要对应版本号。参考博客:https://blog.csdn.net/songhaifengshuaige/article/details/79480491前言本章将介绍如何在WIN10下实现spark环境搭建。本章概要1、版本说明2、环境准备:jdk配置;s...原创 2019-11-14 11:48:46 · 1251 阅读 · 0 评论 -
zookeeper集群配置(从虚拟机到集群)
1. 安装虚拟机本篇博客用的是VMWare和CentOS7开启虚拟机开始安装。。。等很久设置root密码2. 复制虚拟机在创建了一个虚拟机后,找到存放地址,直接将虚拟机复制粘贴即可复制虚拟机打开文件夹中的.vmx文件即可打开复制后的虚拟机,会跳出一个选项,选择复制虚拟机即可在VMware中可以对虚拟机重命名由于是直接复制的虚拟机,所以三个虚拟机的...原创 2020-01-22 16:05:59 · 3240 阅读 · 0 评论