![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
manmanlu2006
这个作者很懒,什么都没留下…
展开
-
HBase入门
一、Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。HDFS和HBase有啥区别阿?可以把HBase当做是MySQL,把HDFS当做是硬盘。HBase只是一个NoSQL数据库,把数据存在HDFS上。HBase在HDFS之上提供了高并发的随机写和支持实时查询,这是HDFS不具备的。HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于原创 2021-09-24 11:53:30 · 835 阅读 · 0 评论 -
Hive数据仓库学习一
一、引入问题:需要对各种数据源(MySQL、MongoDB、第三方数据)进行整合汇总分析时一个故事在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。当各个种族的领袖美滋滋地戴上各自的魔戒,走上人生巅峰的时候,猥琐男又打造出一枚独.原创 2021-09-23 09:48:19 · 424 阅读 · 0 评论 -
ZooKeeper入门
一、zookeeper介绍官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。上面的解释有点抽象,简单来说zookeeper=文件系统+监听通知机制。Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。整个大数据生态圈就是一个动物园。Hadoop就是小象,hive就是一个小蜜蜂,hba原创 2021-09-22 10:56:35 · 397 阅读 · 0 评论 -
idea中打jar包
将项目打包成jar1、右键项目名称——>Open Module Settings1、右键项目名称——>Open Module Settings,如下:3、填写Main Class(点击…选择WordcountMain),再然后下面有两个选项,第一个是extract to the target JAR,指将项目及项目依赖的包都打包成一个JAR(结果运行比较慢,见附录),第二个是copy to the output directory and link via manifest,指原创 2021-08-31 15:24:36 · 200 阅读 · 0 评论 -
MapReduce
设计MapReduce的出发点就是为了解决如何把大问题分解成独立的小问题,再并行解决。MapReduce的架构图:ClientClient的含义是指用户使用MapReduce程序通过Client来提交任务到Job Tracker上,同时用户也可以使用Client来查看一些作业的运行状态。Job Tracker这个负责的是资源监控和作业调度。JobTracker会监控着TaskTracker和作业的健康状况,会把失败的任务转移到其他节点上,同时也监控着任务的执行进度、资源使用量等...原创 2021-08-24 11:31:55 · 608 阅读 · 0 评论 -
《深度剖析HDFS》---核心设计
一、数据存储内存存储:lazy_persist 直接将内存作为数据存放的载体,即节点的内存也充当一块“磁盘”。异步存储步骤: 1)对目标文件目录设置存储策略为LAZY_PERSIST; 2)客户端向nameNode发送读写请求 3)客户端请求到具体对DataNode后,dataNode把数据写入RAM,同时启动异步线程服务将内存数据持久化写到磁盘上。二、内存存储流程分析 1、设置内存存储策略: 三种方式:命令、调用对应的程序方法、通过FileSystem的s...原创 2021-08-24 10:20:19 · 222 阅读 · 0 评论 -
IDEA建hadoop项目
一、新建项目project选择maven;填写maven的坐标,“groupId”,“artifactId”,以及“version”,其中groupId是公司域名的反写,而artifactId是项目名或模块名,而version就是该项目或模块所对应的版本号,点击next:next之后,finish;二、配置pom打开 pom.xml,进行修改:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http原创 2021-08-23 15:07:46 · 2006 阅读 · 0 评论 -
IDEA配置Hadoop插件
一、安装插件1.1搜索的方式安装:如果还是不行,你可以在cmd里面ping plugins.jetbrains.com 一下https://my.oschina.net/u/4359728/blog/33051151.2 第二种本地插件的安装(成功)我的是2018版的IDE,还是搜不到,搜到了如下办法:https://blog.csdn.net/weixin_43311978/article/details/105558773?utm_medium=distribut...原创 2021-08-23 11:46:15 · 2352 阅读 · 0 评论 -
hadoop安装(window10)
一、下载和winutils1.下载:http://archive.apache.org/dist/hadoop/core/官网下载:http://hadoop.apache.org/releases.html (提供最新的几个版本)https://github.com/steveloughran/winutils(windows安装需要)如果出现“Bandwidth limit exceeded”-限制下载,可以用迅雷下载,本人直接用迅雷下载;或者参考:https://blog...原创 2021-08-20 15:57:56 · 3292 阅读 · 2 评论 -
hadoop学习(序列化和压缩)
一、common模块的配置参考:Configuration配置类的分析https://blog.csdn.net/Androidlushangderen/article/details/41599873二、序列化将一个对象编码成字节流称为序列化该对象。主要三种用途:作为一种持久化格式、作为一种通信数据格式、作为一种拷贝、克隆机制。分布式数据处理中主要使用前两种功能。Java内建序列化机制:Java中使一个类的实例可被序列化非常简单,只需在类声明中加入implement Serializabl原创 2021-08-11 13:34:12 · 109 阅读 · 0 评论 -
Hadoop学习(环境配置)
一、生态系统的组成Hadoop Common:0.2版本开始,Hadoop项目的core部分更名为Hadoop common,为其Hadoop其他项目提供了一些常用工具。包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FieSystem等。Avro: 是一个数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式。Zookeeper: 是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理..原创 2021-08-09 15:56:26 · 164 阅读 · 0 评论 -
Hadoop HDFS文件系统
HDFS全称Hadoop Distributed File System。它是一个基于Java开发的分布式文件系统,用于在hadoop集群的多个节点上存储大数据量文件。HDFS是一个主-从(master-slave)架构,一个hadoop集群中HDFS只能有一个Namenode和多个Datanode组成,这两类节点分工明确:1、NameNode(名字节点):HDFS系统中只有一个,是一个中心服务器角色,负责管理构建HDFS的名字空间(namespace),比如打开、关闭、重命名文件或目录;管理和检索原创 2021-08-06 16:49:51 · 551 阅读 · 0 评论