![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 96
大数据
巴中第一皇子
这个作者很懒,什么都没留下…
展开
-
MapReduce组件总结
1. HDFS1.1 简介HDFS是一个分布式文件系统,用于存储大且多的文件。适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析。1.2 优点高容错:数据会自动拷贝副本,当某一个副本丢失,它也可以自动恢复 适合处理大数据:数据规模可以支持GB,TB,甚至PB级别数据。 可构建在廉价的机器上,成本低。1.3 缺点不支持低延迟数据访问 无法高效的存储小文件:会占用NameNode大量内存来存储文件目录和块信息,而NameNode的内存是有限的 不支持并发写入文件,原创 2021-06-03 15:45:41 · 2358 阅读 · 5 评论 -
flink学习
尚硅谷Flink入门到实战-学习笔记尚硅谷2021最新Java版Flink下面笔记来源(尚硅谷公开资料、网络博客、个人小结)中间会把自己认为较重要的点做做标记(下划线、加粗等)1. Flink的特点事件驱动(Event-driven)基于流处理一切皆由流组成,离线数据是有界的流;实时数据是一个没有界限的流。(有界流、无界流)分层API越顶层越抽象,表达含义越简明,使用越方便越底层越具体,表达能力越丰富,使用越灵活1.1 Flink vs Spark Stream原创 2022-02-14 23:41:23 · 958 阅读 · 0 评论 -
Hive使用
1. Hive简介1.1 介绍Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。Hive在Hadoop之上,所以使用hive的前提是先要安装HadoopHive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上1.2 优缺点1.2.1 优点操作接口采用类SQL语法,避免了去写MapReduce,减少开发人员的学习成本,提供快速开发原创 2021-07-21 00:43:36 · 1306 阅读 · 0 评论 -
hbase使用
1. 简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。Hbase面向列存储,,基于hadoop的数据库,提供一个十亿级行*百万级列级别的表存储,对表中的数据提供实时的随机读写操作!1.1 优点海量存储:HBase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与HBase的极易扩展性息息相关。正式因为HBase良好的扩展性,才为海量数据的存储提供了便利。 列式存储:这里的列式存储其实说的是列族存储,HBase是根据原创 2021-09-01 01:29:11 · 3082 阅读 · 0 评论 -
hadoop单机及完全分布式集群的安装
1. hadoop我Hadoop的安装目录为/usr/local/workspace/hadoop2.hdfs2.1 单机模式单机模式即不使用分布式模式,无需启动namenode和datanode,自动使用linux文件系统即其配置如下,该配置也是hdfs的默认配置,file协议就是使用当前系统的文件系统<property> <name>fs.defaultFS</name> <value>file:///</value原创 2021-05-23 18:29:16 · 382 阅读 · 2 评论 -
HDFS知识点
1. HDFS1.1 简介HDFS是一个分布式文件系统,用于存储大且多的文件。适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析。1.2 优点高容错:数据会自动拷贝副本,当某一个副本丢失,它也可以自动恢复 适合处理大数据:数据规模可以支持GB,TB,甚至PB级别数据。 可构建在廉价的机器上,成本低。1.3 缺点不支持低延迟数据访问 无法高效的存储小文件:会占用NameNode大量内存来存储文件目录和块信息,而NameNode的内存是有限的 不支持并发写入文件,原创 2021-07-05 23:07:07 · 950 阅读 · 9 评论 -
Flume使用
Executor是JDK1.5时,随着J.U.C引入的一个接口,引入该接口的主要目的是解耦任务本身和任务的执行。我们之前通过线程执行一个任务时,往往需要先创建一个线程,然后调用线程的start方法来执行任务:newThread(new(RunnableTask())).start();上述RunnableTask是实现了Runnable接口的任务类而Executor接口解耦了任务和任务的执行,该接口只有一个方法,入参为待执行的任务:...原创 2021-08-05 17:56:39 · 794 阅读 · 0 评论 -
Sqoop的使用
1. 简介sqoop可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。sqoop分为sqoop和sqoop2,但是sqoop2不兼容sqoop,且特征不完整,它并不打算用于生产部署。所以我们一般使用sqoop即可Sqoop的原理是讲命令翻译为MR执行,MR没有Reduce阶段,只有Map阶段!2.Sqoop的安装2.1 官网下载安装包,上传解压,并配置环境变量2.2.原创 2021-09-09 01:46:11 · 731 阅读 · 0 评论 -
Phoenix的使用
Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.特点将 SQl 编译为 HBase 语句进行数据的CRUD 扫描并行执行 可以进行进行聚合操作 完美支持 HBase 二级索引创建 容易集成:如Spark,Hive,Pig,Flume和Map原创 2021-09-07 03:10:36 · 765 阅读 · 0 评论 -
flink电商实战+CEP
1. 基于flink的电商用户行为数据分析Flink电商项目第一天-电商用户行为分析及完整图步骤解析-热门商品统计TopN的实现批处理和流处理电商用户行为分析数据源解析项目模块划分1.1 批处理和流处理批处理批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。可以认为,处理的是用一个固定时间间隔分组的数据点集合。批处理模式中使用的数据集通常符合下列特征:有界:批处理数据集代表数据的有限集合持久:数据通常始终存储在某种类型的持久存储位置中大量:批处理操作通常是处理极原创 2022-02-14 23:47:17 · 2864 阅读 · 3 评论 -
Kafka使用
1. 什么是KafkaKafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域,且是一个分布式的数据流式传输平台,由Scala写成。Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。2. Kafka特点作为一个数据流式传输平台,kafka有以下三大特点:类似.原创 2021-08-17 00:23:06 · 296 阅读 · 0 评论