大数据
文章平均质量分 88
大数据全栈架构
南山二毛
怕什么真理无穷,进一寸有一寸的欢喜。
展开
-
十分钟入门 Kafka,通俗易懂地理解分布式消息系统!!
在读这篇文章前,你可能会有如下的问题,读完之后,都迎刃而解。问题什么是分布式消息中间件?消息中间件的作用是什么?消息中间件的使用场景是什么?消息中间件选型?初识 KafkaKafka知识树1 Why Kafka活动跟踪:Kafka 可以用来跟踪用户行为,比如我们经常回去淘宝购物,你打开淘宝的那一刻,你的登陆信息,登陆次数都会作为消息传输到 Kafka ,当你浏览购物的时候,你的浏览信息,你的搜索指数,你的购物爱好都会作为一个个消息传递给 Kafka ,这样就可以生成报告,可以做智能原创 2021-08-23 00:03:39 · 7871 阅读 · 67 评论 -
大数据之spark——1入门(概念、环境搭建与部署)
1 Spark概述1.1 Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。(没有存储功能)1.2 Spark and HadoopSpark是用Scala语言开发的快速、通用、可扩展的大数据分析引擎。Spark Core中提供 了Spark最基础和最核心的功能。Spark SQL是Spark用来操作结构化数据的组件,通过Spark SQL,用户可以使用SQL或者Apache Hive的SQL方言(HQL)来查询数据。Spark Streaming 是Spark原创 2021-07-05 01:59:44 · 1860 阅读 · 1 评论 -
大数据之Hadoop——3HDFS(HDFS组成、shell操作、API、读写流程、工作机制)
1 HDFS概述1.1 产生背景和定义1)HDFS产生背景随着数据流越来越大,在一个操作系统存不下所有数据时,就需要分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件,其次它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各有其角色。H.原创 2021-07-04 23:57:25 · 4455 阅读 · 3 评论 -
大数据之Hadoop——2Hadoop运行集群搭建超详细(超长博客!!!创建hadoop环境虚拟机,克隆虚拟机,集群搭建,文件同步,免密传输,日志配置,集群时间同步)
1 准备工作1.1 模板虚拟机环境准备1) 安装模板虚拟机,IP地址 192.168.10.100、主机名称hadoop100、内存、4G、硬盘50G。为什么要搭建模板虚拟机:搭建完一个虚拟机后,可以直接拷贝多个虚拟机,不需要重复的安装过程。...原创 2021-07-03 03:29:16 · 2208 阅读 · 1 评论 -
大数据之Presto——1主体框架流程
Prestodb仓库包名作用presto-accumulopresto-arraypresto-atoppresto-base-jdbcpresto-benchmark-driverpresto-benchmark-runnerpresto-benchmarkpresto-benchto-benchmarkspresto-bigquerypresto-blackholepresto-bytecode原创 2021-06-09 00:24:40 · 2095 阅读 · 2 评论 -
大数据之Presto——2基于presto-base-jdbc与presto-spi的插件实现
Presto的多源查询能力是通过 Connector 机制来实现的。其中MySQL、Hana等Connector是主要是通过presto-base-jdbc中的代码来实现对SQL等数据源的读写。1、Presto-main、spi、base jdbc关系Java可以作为一种面向接口编程语言。其中presto-spi中主要定义了一些公共接口,供Presto-main中的代码进行调用。presto-base-jdbc是数据库连接器的公共模块,对Presto-main进行了实现和补充。其代码经过编译后,会对应原创 2021-06-09 01:33:50 · 2376 阅读 · 0 评论 -
大数据之Hadoop——1概念
大数据1原创 2021-06-27 22:52:25 · 1837 阅读 · 0 评论 -
大数据技术总体概括
1、知识点1.1 RDBMSRelational DataBase Magement System关系型数据库管理系统相关技术栈:SQL、SQL databases(MySQL、Postgres、Oracle等),Data Modeling(FB DE)1.2 SQL1.3 Batch ETLExtract,Transform,Load从数据仓库中提取数据,使用slicing和dicing规则去传输和加载数据到marts中。1.4 data warehouse数据仓库与数据库DB的区别原创 2021-06-27 01:42:11 · 2076 阅读 · 0 评论 -
大数据之Hive学习——1三分钟快速入门
第一章 Hive数据类型1 Hive数据类型本篇文章介绍Hive不同的数据类型, 用于创建表. Hive所有的数据类型分为四种类型, 给出如下.列类型文字Null 值复杂类型1.1 列类型列类型被用作Hive的列数据类型. 它们如下:整型整形数据可以指定使用整型数据类型, INT. 当数据范围超过INT的范围时, 需要使用BIGINT, 如果数据范围比INT小, 使用SMALLINT. TINYINT比SMALLINT 小.下表描述了各类INT数据类型.类型后缀示例原创 2021-06-24 02:21:51 · 2047 阅读 · 1 评论 -
大数据hadoop与spark研究——1 spark环境搭建
第一章 介绍一、 spark组件Spark是一个用于集群计算的通用计算框架Spark可将如何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集(RDD)Spark是用Scala写的,运行在Java虚拟机(JVM)上。Spark Core任务调度,内存管理,错误恢复,与存储系统交互,对RDD的api定义RDD表示分布在多个计算节点上可以并行操作的元素集合Spark SQLspark用来操作结构化数据的程序包支持将SQL和传统的RDD编程的数据操作方式相结合原创 2021-06-24 02:10:39 · 2519 阅读 · 0 评论