2020年08月_普罗米修斯之火

原创大数据之hbase_hbase的原理加强读写数据流程

写数据流程1.客户端请求写入一条数据,会先向ZK发起请求,并给到ZK表名,行键,列族,属性,值等信息2.ZK接收到请求,返回给客户端META表的位置信息,(META表中记录了region的个数,及每个region的大小和数据的起始位置等信息)3.客户端拿到META表的位置信息,就会去到对应的regionserver请求META表数据,(假如META表的元数据中没有row_key的范围信息,就会去请求HMaster分配新的row_key的范围信息)4.regionserver将META表数据给到客户端

2020-08-30 22:53:27 204

原创大数据之hbase_将静态文件导入到hbase表中

shell客户端将csv静态文件导入到hbase中使用importTsv工具简介 Importtsv是hbase自带的一个 csv文件–>HFile文件的工具，它能将csv文件转成HFile文件，并发送给regionserver它的本质，是内置的一个将csv文件转成hfile文件的mr程序！例如将以下数据导入到hbase表中:1,zss,M,342,lss,M,333,mby,M,294,zhoushen,M,245,dengzq,F,28首先将该数据以user.csv格式存入

2020-08-30 21:58:21 1227

原创大数据之hbase_hbase的java客户端基础操作2

先封装两个方法,获取连接对象和遍历result对象,打印输出import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Connection;i

2020-08-30 20:38:23 208

原创大数据之hbase_hbase的java客户端基础操作

首先创建一个maven项目,然后导入以下依赖:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.comp

2020-08-28 22:21:08 269

原创大数据之hbase_hbase的shell客户端基础操作

开启shell交互客户端为了操作方便,建议将hbase配置到linux系统的环境变量中配置好环境变量后,在任意位置,输入hbase shell 即可进入到shell客户端中输入help指令,可查看shell客户端所有的操作指令列表输入help “命令名” 可查看该命令所有的功能及用法通用命令status: 查看HBase的状态，例如，服务器的数量。version: 提供正在使用HBase版本。table_help: 表引用命令提供帮助。whoami: 提供有关用户的信

2020-08-27 23:18:22 667

原创大数据之hbase_hbase的介绍及安装

hbase简介hbase是一个用以储存结构化和非结构化数据的分布式列式存储数据库传统数据库mysql,单节点储存,储存容量小,且是行式储存,当我们需要查询某一个字段的所有数据时,需要将全表都加载一遍,而列式数据库则不需要,大大加快了查询速度.且方便执行压缩算法hbase支持分布式储存,将数据储存在hdfs中,存储量大,且可以利用不同机器来处理并发请求.hbase于clickhouse相比,clickhouse支持多维度查询,hbase只支持单维度查询,且不支持sql语句,hbase的数据储存在hdf

2020-08-27 22:03:36 447

原创大数据之clickhouse_clickhouse表引擎介绍

表引擎表引擎（即表的类型）决定了：1.数据的存储方式和位置，写到哪里以及从哪里读取数据2.支持哪些查询以及如何支持。3.并发数据访问。4.索引的使用（如果存在）。5.是否可以执行多线程请求。6.数据复制参数。在读取时，引擎只需要输出所请求的列，但在某些情况下，引擎可以在响应请求时部分处理数据。对于大多数正式的任务，应该使用MergeTree族中的引擎。*日志引擎具有最小功能的轻量级引擎。当您需要快速写入许多小表（最多约100万行）并在以后整体读取它们时，该类型的引擎是最有效的。

2020-08-25 21:36:19 1330

原创大数据之clickhouse_clickhouse的基础介绍及基础使用

什么是ClickHouselickHouse是一个完全的列式数据库管理系统，允许在运行时创建表和数据库，加载数据和运行查询，而无需重新配置和重新启动服务器，支持线性扩展，简单方便，高可靠性，容错。它在大数据领域没有走 Hadoop 生态，而是采用 Local attached storage 作为存储，这样整个 IO 可能就没有 Hadoop 那一套的局限。它的系统在生产环境中可以应用到比较大的规模，因为它的线性扩展能力和可靠性保障能够原生支持 shard + replication 这种解决方案。它还提

2020-08-24 23:24:01 1371 1

原创大数据之hive_hive的基础介绍,及安装

hive的基础介绍什么时hive:hive是由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)hive是基于Hadoop的一个数据仓库工具(服务型软件),可以将结构化的数据文件映射为一张表,并提供类似于sql查询.HQL本质是:将hive sql转换成mapreduce程序或spark程序hive处理的数据储存在hdfs中hvie分析数据底层实现的是mapreduce或spark(分布式运行框架)hive执行的程序是在yarn上的Hive的优缺点优点1)操

2020-08-23 21:58:47 294

原创大数据之ZooKeeper_java端监听节点信息变化,代码实现

首先用Java操作zookeeper之前需要先创建一个Maven项目,然后导入如下依赖:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.

2020-08-23 21:17:16 898

原创大数据之ZooKeeper基础介绍及安装部署

1.什么是 ZooKeeper是一个底层的分布式协调服务工具,它是hadoop生态体系中很多分布式系统（HDFS、YARN、HBASE、KAFKA…）的基础组件2.ZooKeeper的基本功能为客户提供写数据的功能,要求数据信息不大,属于状态信息数据为客户提供读取数据的功能为用户提供数据变化时的监控功能3.ZooKeeper的作用分布式系统中进行主节点选举分布式系统中主从节点的感知分布式系统中配置文件的同步分布式系统中动态上下线的感知分布式系统中分布式锁的实现,分布式中的同一个对象,类

2020-08-21 22:24:26 365

原创大数据之Hadoop_MapReduce自定义输出和输入类型

自定义输出和输入类型介绍我们在使用MapReduce处理需要两次聚合的数据时,我们会进行两次输出,第二次输出的结果是读取第一次输出的结果进程聚合处理的,但我们只需要看到第二次的聚合的结果就可以了,第一次聚合的结果我们是否能看懂都无所谓,此时我们在进行第一次输出时,我们可以将输出类型由原来(当我们未自定义时默认的输入和输出类型都是TextInputFormat和TextOutputFormat)改为SequenceFileOutputFormat,Sequence相对于Text类型处理速度较快,且更节约内

2020-08-21 21:07:00 581 1

原创大数据之Hadoop_MapReduce电影评分案例之高效TopN

电影评分案例之高效TopN例如:我们要求每部电影的最高评分的前n条记录,按照之前的做法在map端是以电影名为key,MovieBean为value,输出到reduce端,然后分组,将每组数组放入到List集合中按分数高低进行排序,取前n条.此时我么可以考虑在map端时将MovieBean作为key,输出到缓存区中,让缓存区自动按电影名分区并排序,然后分组,在reduce端我们只需要取出前n条记录即可.这样我们可以避免放入List集合中再排一遍序,大大的减少了运算量.那么当我们以MovieBean为ke

2020-08-21 20:43:00 2107 1

原创大数据之Hadoop_Yarn的调度策略及Yarn的基本运行流程

Yarn的调度策略资源调度分三种:1.FIFO : 队列的形式调度,即这个节点中只有这一个队列,当这个队列中有个大文件在处理,处理的时间较长,这时其他的小文件就需要等待它执行完成后,其他文件文件才能执行,这种调度策略已经被淘汰.2.资源调度 : 设置多个节点并行执行不同的任务,不会造成队列的堵塞,但是即使是一个小文件也会占用一个节点,会造成资源的浪费3.公平调度 : 在一个节点中设两个队列,当只有一个任务在执行时,这个任务会占用所有的资源,即将两个队列都占满,但有另一个任务进来时,就会在另一个队列中

2020-08-20 23:54:21 402

原创大数据之Hadoop_Yarn的基本介绍,及入门程序的书写

Yarn的基本介绍Yarn:分布式资源调度平台和任务交互平台.主要负责在hadoop集群中管理各节点的cpu.内存.磁盘(IO),网络的使用情况,实时监控集群中每台机器的运算资源,合理分配资源,及任务进度的监控,任务再分配Yarn与hdfs相似,也分主从结点:主节点:resourcemanage从节点:nodemanage安装Yarn1.上传Yarn的安装包2.解压到指定目录下3.进入到hadoop的etc下修改yarn-site.xml配置文件,将以下配置信息加入进去<confi

2020-08-20 22:49:18 207

原创大数据之Hadoop_MapReduce处理数据内部基本流程

MR处理数据内部基本流程一.任务切分1.根据文件的大小,及文件的个数进行任务切分,如:有一个文件200M,还有另一个文件100M,就会先将200M的文件按数据切块的原理分成两块,然后这两个文件就会被划分成三个任务,这就叫数据切块,和任务切分2.任务切分后,就会去找LineRecordReader读取数据, 在LineRecordReader就会使用readLine()读取数据,每读一行,就会生成一个key(偏移量LongWriable)和一个value(读取到的一行数据Text).然后就会将k,v给到

2020-08-19 22:38:45 755

原创大数据之Hadoop_MapReduce数据倾斜问题及解决方案

Join案例将以下两个文件进行根据uid整合成一个文件,统计出每个用户,购买的商品import org.apache.commons.beanutils.BeanUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;i

2020-08-19 20:42:42 322

原创大数据之Hadoop05_MapReduce经典案例

1. 将以下日志信息按手机号进行流量汇总import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapp

2020-08-17 23:22:22 671

原创大数据之Hadoop03_namenode对元数据的管理及MapReduce原理基础

元数据元数据职责:1.维护虚拟访问目录2.储存数据块信息.副本个数.物理块的位置3.储存块描述信息,起始位置,大小namenode对元数据的管理1.客户端在发起读取数据的请求时,需要元数据要在很高的效率下找出数据储存的位置,所以元数据储存在内存中,并以Tree型数据结构储存,但储存设备宕机后,内存中的数据会消失,所以元数据就也会写入到磁盘中,做持久化储存.因此在内存中和磁盘中各有一份元数据.2.内存中的元数据称之为FSImage(类),序列化(持久化)到磁盘中后变成image文件3.但如果频

2020-08-16 23:12:41 220

原创大数据之Hadoop02-java客户端操作hdfs及hdfs原理增强

java客户端操作hdfs** *(1)java客户端操作hdfs,上传文件,删除文件,创建文件夹, */public class Demo01 { public static void main(String[] args) { //配置信息对象 Configuration conf = new Configuration(); conf.set("dfs.replication","4"); FileSystem fs =

2020-08-14 23:41:11 194

原创大数据之Hadoop01-安装Hadoop及基础使用

Hadoop的简介:HDFS(Hadoop Distribute File System)分布式存储:解决海量数据存储问题MapReduce:Hadoop分布式运算编程框架Yarm:分布式资源调度平台Commons:Hadoop底层技术支持Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高可用性，而是旨在检测和处理应用程序层的故障，因此可

2020-08-13 22:38:56 412

WuBoooo的博客