大数据
文章平均质量分 91
jialun0116
浙江工业大学
展开
-
数据仓库工具箱第三章——零售业务
第三章——零售业务3.1 维度建模设计的4步过程3.1.1 选择业务过程3.1.2 声明粒度3.1.3 确定维度3.1.4 确定事实3.2 销售业务案例研究3.2.1 选择业务过程3.2.2 声明粒度3.2.3 确定维度3.2.4 确定事实3.3 维度表设计细节3.3.1 日期维度3.3.2 产品维度3.3.3 商店维度3.3.4 促销维度3.3.5 事务号码的退化维度3.4 实际的销售模式3.5 零售模式的扩展能力3.6 无事实的事实表3.7 维度与事实表键3.7.1 维度表代理键3.7.2 日期维度的智原创 2021-12-04 10:13:38 · 1276 阅读 · 0 评论 -
MOLAP——Kylin总结
Kylin总结1. OLAP分类1.1 MOLAP1.2 ROLAP1.3 HOLA2. 概述2.1 定义2.2 Kylin架构2.3 工作原理和过程2.4 特点2.4 和Druid 比较3. Cube 构建原理3.1 维度和度量3.2 Cube 和 Cuboid3.3 Cube 存储原理3.4 Cube构建方法3.4.1 逐层构建算法 layer3.4.2 快速构建算法(inmem)4. Cube构建优化4.1 检查问题Cube4.2 并发粒度优化4.3 使用聚合组(Aggregation group)原创 2021-12-01 23:04:11 · 3777 阅读 · 0 评论 -
数据仓库工具箱——数据仓库、商业智能及维度建模初步
第一章——数据仓库、商业智能及维度建模初步1.1 数据获取与数据分析的区别1.2 数据仓库与商业智能的目标1.3 维度建模简介1.3.1 星型模式和OLAP多维数据库1.3.2 用于度量的事实表1.3.3 用于描述环境的维度表1.3.4 星型模型中维度与事实的连接1.4 Kimball的DW/BI架构1.4.1 操作型源系统1.4.2 ETL系统1.4.3 用于支持商业智能决策的展现区1.4.4 商业智能应用1.4.5 餐厅举例描述Kimball框架1.5 其他DW/BI架构1.5.1 独立数据集市架构1.原创 2021-11-27 19:27:29 · 1341 阅读 · 1 评论 -
大数据之路——数据质量
十五、数据管理——数据质量15.1 数据质量保障原则15.2 数据质量方法概述15.2.1 消费场景知晓15.2.2 数据生产加工各个环节节点校验15.2.3 风险点监控15.2.4 质量监控15.2.5 质量配套工具数据质量时数据分析结论有效性和准确性的基础,也是一切的前提。确保数据可用性15.1 数据质量保障原则完整性。数据完整性是数据最基础的保障;指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失包括记录的缺失和记录中某个字段信息的缺失准确性。数据汇总记录的信息和数据是否准原创 2021-11-22 14:25:45 · 1776 阅读 · 1 评论 -
大数据之路——存储和成本管理
十四、数据管理——存储和成本管理14.1 数据压缩14.2 数据重分布14.3 存储治理优化14.4 生命周期管理14.4.1 生命周期管理策略14.4.2 通用的生命周期管理矩阵14.5 数据成本计算对于数据爆炸式的增长,有效地降低存储资源的消耗,节省存储成本。14.1 数据压缩背景:在分布式系统中为了提高数据的可用性与性能,通常会将数据存储三份。方案:在MaxCompute中提供了archive压缩方法,默认值(6,3)即6份数据 + 3份校验块。能够把存储比例从1:3变成1:1.5。但是恢原创 2021-11-22 13:16:09 · 1916 阅读 · 0 评论 -
大数据之路——计算管理
十三、数据管理——计算管理13.1 系统优化13.1.1 HBO History-Based Optimizer13.1.2 CBO Cost-Based Optimizer13.2 任务优化13.2.1 Map倾斜及优化13.2.2 Join倾斜及优化13.2.3 Reduce 倾斜及优化降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间13.1 系统优化通过分析计算系统的数据运行情况,判断计算系统对内存、CPU、Instance 个数这些资源的运用是否合理(指计算时间更短,使用的资源原创 2021-11-21 11:21:28 · 2125 阅读 · 2 评论 -
大数据之路——元数据
十二、数据管理篇——元数据12.1 元数据概述12.2 元数据价值12.3 统一元数据体系建设12.4 数据建模12.5 产品12.5.1 Data Profile12.5.2 元数据门户12.5.3 应用链路分析12.1 元数据概述传统的定义:元数据是关于数据的数据。打通了元数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。<>元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。技术元数据(Technical Meta原创 2021-11-19 09:33:57 · 1049 阅读 · 0 评论 -
大数据之路—— 事实表设计
十一、数据模型篇—— 事实表设计11.1 事实表基础11.1.1 事实表特性11.1.2 事实表设计原则11.1.3 事实的设计准则11.1.4 事实表设计方法11.2 事务事实表11.2.1 单事务事实表11.2.2 多事务事实表11.2.3 两种事实表比较11.3 周期快照事实表11.3.1 特性11.3.2 设计步骤11.3.3 注意事项11.4 累计快照事实表11.4.1 特性11.4.2 设计步骤11.4.3 特殊处理11.4.4 物理实践11.5 三种事实表比较11.6 无事实的事实表11.7原创 2021-11-18 08:00:00 · 1922 阅读 · 1 评论 -
大数据之路—— 维度设计
十、数据模型篇—— 维度设计10.1 维度设计基础10.1.1 基本概念10.1.2 维度的基本设计方法10.1.3 层次结构10.1.4 规范化和反规范化10.1.5 一致性维度和交叉探查10.2 维度设计高级10.2.1 维度整合10.2.2 维度拆分10.2.3 历史归档10.3 维度变化10.3.1 缓慢变化的维度10.3.2 快照维表10.3.3 极限存储10.3.4 微型模型10.4 特殊维度10.4.1 递归层次10.4.2 行为维度表10.4.3 多值维度10.4.4 多值属性10.4.5原创 2021-11-16 18:50:02 · 2593 阅读 · 0 评论 -
大数据之路—— 数据整合和管理体系
九、数据模型篇—— 数据整合和管理体系9.1 体系架构图9.2 名词术语9.3 指标体系9.4 模型设计9.4.1 基本原则9.5 模型实施大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。<>建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。9.1 体系架构图9.2 名词术语数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维原创 2021-11-15 16:26:50 · 2151 阅读 · 0 评论 -
大数据之路—— 建模综述
八、数据模型篇—— 建模综述8.1 OLTP和OLAP讲解8.2 典型的数据仓库建模方法论8.2.1 ER模型8.2.2 维度模型 Kimball8.2.3 Data Vault模型8.2.4 Anchor模型8.3 数据模型实践数据建模就是数据组织和存储档案,强调从业务、数据存取和使用角度存储数据。数据模型十分重要,好处有:性能。能快速查询想要的数据,减少数据的I/O吞吐成本。减少不必要的数据冗余,实现计算结果复用,降低计算和存储成本效率。改善用户使用数据体验,提高使用数据效率质量。改善原创 2021-11-15 16:22:57 · 2300 阅读 · 0 评论 -
大数据之路——数据挖掘
七、数据技术篇—— 数据挖掘7.1 数据挖掘算法平台7.2 数据挖掘中台体系7.2.1 挖掘数据中台7.2.2 挖掘算法中台7.3 数据挖掘案例7.3.1 用户画像7.3.2 反作弊数据挖掘技术与数据仓储和计算技术发展相辅相成,挖掘有效数据信息企业级数据挖掘包含两个要素:面向计算器学习算法的并行计算框架与算法平台;面向企业级数据挖掘的算法资产管理体系。7.1 数据挖掘算法平台汇集了大量优质的分布式算法,包括数据处理、特征工程、机器学习算法等,可高效地完成海量、亿级维度数据的复杂计算(海量原创 2021-11-12 20:40:24 · 1612 阅读 · 0 评论 -
大数据之路—— 数据服务
六、数据技术篇—— 数据服务6.1 架构演进6.2 技术架构@6.3 最佳实践@6.3.1 性能6.3.2 稳定性6.1 架构演进DWSOA由需求驱动,一个需求开发几个接口,编写接口文档,开放给业务方调用。缺点:接口力度粗,灵活度低,扩展性差,复用率低,开发效率低OpenAPI数据按照统计粒度聚合,同样维度的数据形成一张逻辑表,能有效收敛接口数量。SmartDQOpenAPI接口变多,且带来大量对象关系映射的维护工作量。这里再抽象一层,用DSL(Domain Specific L原创 2021-11-12 15:00:00 · 1699 阅读 · 0 评论 -
大数据之路—— 实时技术
五、数据技术篇—— 实时技术5.1 简介5.2 流式技术架构@5.2.1 数据采集5.2.2 数据处理5.2.3 数据存储5.2.4 数据服务5.3 流式数据模型5.3.1 数据分层5.3.2 多流关联5.3.3 维表使用@5.4 大促挑战5.4.1 大促特征5.4.2 大促保障@5.1 简介流计算,业务希望能在第一时间拿到经过加工的数据,实时监控状态作出运营决策,引导业务往好的方向发展。特征:实效性高,延时可能到达毫秒级常驻任务,流式任务数据属于常驻进程任务,启动后会一直运行(数据源是无界原创 2021-11-11 19:36:52 · 2191 阅读 · 0 评论 -
大数据之路—— 离线数据开发
四、数据技术篇—— 离线数据开发4.1 数据开发平台4.1.1 统一计算平台@4.1.2 统一开发平台4.2 任务调度4.2.1 核心设计模型4.2.2 任务状态机模型@4.2.3 工作状态机模型4.2.4 调度引擎工作原理4.2.5 执行引擎逻辑架构图@4.2.6 调度系统的特点数据存储及计算、数据整合及管理体系4.1 数据开发平台了解需求 -> 模型设计 -> ETL开发 -> 测试 -> 发布上线 -> 日常运维 -> 任务下线4.1.1 统一计算平台@原创 2021-11-11 19:34:16 · 2249 阅读 · 0 评论 -
大数据之路——数据同步
三、数据技术篇—— 数据同步3.1 数据同步基础 @3.1.1 直连同步3.1.2 数据文件同步3.1.3 数据库日志解析同步3.2 数据仓库同步方式3.2.1 批量数据同步3.2.2 实时数据同步3.3 同步遇到的问题3.3.1 分库分表3.3.2 增量全量同步的合并@3.3.3 数据漂移的处理 @有多种不同应用场景:主数据库和备份数据库之间的数据备份,主系统和子系统的数据更新,不用地域、数据库类型的数据传输交换3.1 数据同步基础 @关系型数据库,结构化数据:MySQL、Oracle、DB2非关原创 2021-11-11 10:16:26 · 4723 阅读 · 0 评论 -
大数据之路——日志采集
二、数据技术篇—— 日志采集2.1 浏览器日志采集2.1.1 页面型的日志采集分类2.1.2 页面访问过程2.1.3 页面浏览日志采集流程@2.1.4 页面交互日志采集2.1.5 页面交互日志清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击事件2.2.3 特殊场景2.2.4 H5 & Native日志统一 @2.2.5 日志传输2.3 日志采集的挑战2.3.1 日志分流和定制处理2.3.2 大促保障 @日志本身不是日志采集的目的,服务于基于日志的后续应用,才是正确的原创 2021-11-10 14:13:56 · 2623 阅读 · 0 评论 -
阿里大数据之路 总述
大数据之路一、总述数据有序、有结构地分类和存储,从而产生价值。 实时:数据量大,要实时、准确 离线:采集、存储、计算数据模型、数据研发、数据质量和运维保障工作难点:高效的数据模型和体系,数据易用,避免重复建设和不一致性,数据的规范性高效的数据开发工具,数据质量保障管理和控制存储和计算消耗数据服务的稳定和性能数据体系:1. 数据采集日志采集体系:Web端日志采集技术APP端日志采集技术各个场景的埋点数据传输体系:数据传输包括增量数据传输、日志数据传输支持实原创 2021-11-10 14:11:09 · 1728 阅读 · 0 评论 -
Flink 总结三 Window
Flink的WindowWindow概述Window类型滚动窗口 Tumbling Windows滑动窗口(Sliding Windows)会话窗口(Session Windows)Window API概述窗口分配器创建不同类型的窗口TimeWindowCountWindowwindow function增量聚合函数全窗口函数其它可选API代码测试增量聚合函数全窗口函数滑动计数窗口的增量聚合函数可选API代码片段时间语义和WatermarkFlink中的时间语义EventTime的引入Watermark概念原创 2021-07-05 11:05:51 · 372 阅读 · 0 评论 -
Flink 尚硅谷 总结二 流处理API
Flink 尚硅谷 总结二Flink 流处理APIEnvironmentgetExecutionEnvironmentcreateLocalEnvironmentcreateRemoteEnvironmentSource从集合读取数据从文件读取数据从Kafka读取数据自定义SourceTransform基本转换算子map、flatMap、filter聚合操作算子keyByRolling Aggregationreduce多流转换算子ConnectCoMapUnion算子转换支持的数据类型实现UDF函数——更原创 2021-07-02 10:06:13 · 905 阅读 · 2 评论 -
Flink 尚硅谷 总结一
Flink 尚硅谷 总结一Flink介绍Fink是什么为什么选择Flink数据处理框架历史Flink的特点Flink vs Spark Streaming快速上手批处理实现WordCount流处理实现流式数据源测试Flink 部署task slot 多线程Web UI提交命令行提交jobYarn模式Sesstion Cluster模式Per Job Cluster 模式Flink运行框架运行时的组件任务提交流程任务调度原理TaskManger与Slots与共享组Slot和并行度程序与数据流执行图数据传输形式原创 2021-06-30 14:35:36 · 1115 阅读 · 1 评论 -
Elasticsearch ES进阶总结
Elasticsearch 进阶核心概念系统框架进阶扩容路由计算写流程读流程分片原理倒排索引动态更新索引近实时搜索文档分析文档冲突ES优化硬件选择分片策略路由选择写入速度优化内存设置核心概念索引 Index一个索引就是一个拥有几分相似特征的文档的集合。一个索引由一个名字来标识(必须全部是小写字母),在一个集群中,可以定义任意多的索引。新华字典前面的目录就是索引的意思,目录可以提高查询速度。elasticsearch 索引的精髓:一切设计都是为了提高搜索的性能。类型 Type在一个原创 2021-06-29 12:09:25 · 877 阅读 · 1 评论 -
Elasticsearch ES使用总结
Elasticsearch ES安装入门数据格式索引操作文档操作映射操作高级查询官方视频介绍CSDN官网个人博客Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。一个分布式的实时文档存储,每个字段可以被索引与搜索一个分布式实时分析搜索引擎能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据Elasticsearch是分布式的搜索、分析引擎,是Elastic Stack的核心。Logstash原创 2021-06-23 15:27:01 · 391 阅读 · 1 评论 -
Python大数据处理库 PySpark实战 总结四
Python大数据处理库 PySpark实战四ETL 实战实验数据来源数据加载观察资料选择、筛选与聚合机器学习实战实验数据来源数据加载统计描述清洗与变形Pipeline逻辑回归预测决策树预测ETL 实战实验数据来源https://groupllens.org/datasets/movielens/下载一个精简数据集。rating.csv 电影评分记录 :userId给电影评价的用户ID movieId 电影的ID rating 打分5分满分,timestamp时间戳数据加载from pysp原创 2021-06-19 22:10:04 · 1406 阅读 · 0 评论 -
Python大数据处理库 PySpark实战 总结三
Python大数据处理库 PySpark实战 总结三共享变量DataFrames 与 Spark SQL创建DataFramesSpark SQL基本用法编写Spark程序并提交共享变量广播变量 broadcast广播变量允许程序缓存一个只读变量在集群的每台机器上,而不是每个任务保存一个拷贝。借助广播变量,可以用一种更高效的方法来共享一些数据,比如一个全局配置文件。from pyspark.sql import SparkSessionspark = SparkSession.buil原创 2021-06-18 10:00:26 · 641 阅读 · 1 评论 -
Python大数据处理库 PySpark实战 总结二
Python大数据处理库 PySpark实战二Pyspark建立Spark RDDpyspark shellVScodeJupyter notebook动作算子变换算子Pyspark建立Spark RDD每个RDD可以分成多个分区,每个分区可以看作是一个数据集片段,可以保存到Spark集群中的不同节点上RDD自身具有容错机制,且是一种只读的数据结构,只能通过转换生成新的RDD;一个RDD通过分区可以多台机器上并行处理;可将部分数据缓存在内存中,可多次重用;当内存不足时,可把数据落到磁盘上创建RDD原创 2021-06-17 12:30:45 · 725 阅读 · 1 评论 -
Python大数据处理库 PySpark实战 总结一
Python大数据处理库 PySpark实战大数据时代分析工具Spark核心组件重要概念部署模式基本操作这是《Python大数据处理库 PySpark实战》一书的总结归纳大数据时代大数据的特点:大量、高速、多样、低价值密度、真实性谷歌三篇论文是大数据的基石:Google File System 、Google MapReduce、Google Bi 个Table,解决存储、计算、查询的问题分析工具Hadoop:HDFS存储、MapReduce计算、YARN资源调度,离线,不适合随机读写的在原创 2021-06-16 09:45:19 · 1430 阅读 · 1 评论 -
简易版电商推荐系统开发实战Hive
简易版电商推荐系统开发实战数据来源数据转换Pandas->MySQL用Sqoop把数据导入Hive推荐算法Mahout安装itembase协同过滤算法进行推荐实验结果这是从Hive离线计算开发实战中看到小项目改造而来数据来源数据来源于天池大赛中的user_log_format1.csv文件用户行为表 user_infoDataFieldsDefinitionuser_id用户IDitem_id商品IDcat_id商品类别IDseller_i原创 2021-06-09 15:37:07 · 923 阅读 · 0 评论 -
Sqoop安装和使用
Sqoop安装和使用Sqoop安装部署安装Sqoop前需要安装并启动Hadoop下载Sqoop链接http://mirrors.aliyun.com/apache/sqoop/1.4.7/将安装包覆之都对应的目录下解压安装tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0下载Mysql数据库中的驱动程序https://dev.mysql.com/downloads/connector/j/配置Mysql连接器 把复制到Sqoop的原创 2021-06-08 16:32:02 · 197 阅读 · 0 评论 -
超全面试汇总——Hadoop(二)
超全面试汇总——Hadoop(二)谈谈什么是Hadoop?@@MapReduce分布式计算@shuffle流程shuffle阶段的数据压缩机制了解吗MapReduce实现基本SQL操作的原理1. Join的实现原理2. Group By的实现原理3. Distinct的实现原理一个文件有上亿url,内存很小,找Top10@SQL转化为MapReduce的过程什么是数据倾斜数据倾斜的表现@发生数据倾斜的原因@如何解决数据倾斜@聚合类group by操作,发生数据倾斜@Reduce join 改为Map joi原创 2021-06-07 14:32:13 · 881 阅读 · 6 评论 -
超全面试汇总——Hadoop(一)
超全面试汇总——Hadoop(一)HDFS文件系统的特点@@HDFS的读写流程@客户端和NameNode、DataNode通信过程底层文件结构 好处@HDFS存储文件类型@HDFS的组成,重要角色HDFS的几个进程@yarn 集群的架构@yarn执行流程yarn 的资源调度三种模型HDFS的高可靠性冷备份 secondary node工作原理:@hadoop的HA(高可用)实现和zk的作用在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂Zookeeper起什么作用的@ZooKeeper的选举机制@原创 2021-05-31 19:34:54 · 861 阅读 · 2 评论 -
Hive性能调优实战 总结三
Hive性能调优(三)第7章 Hive数据处理模式过滤模式聚合模式连接模式第8章 YARN日志ResourceManager Web UI 界面JobHistory Web UI 界面第9章 数据存储数据格式数据归档@第10章 发现并优化问题@监控普通表存储的文件的平均大小监控大表不分区的表@监控分区数据不均匀的表@查询表字段的空值率监控当前集群状态@定位性能瓶颈HiveServer2 WebUI 排除大数据组件的问题Job OverView 排查长时间等待调度Map任务读取小任务数据倾斜缓慢的Shuff原创 2021-05-28 00:08:02 · 1365 阅读 · 0 评论 -
Hive性能调优实战 总结二
Hive性能调优(二)第4章 Hive及相关大数据结构Hive工作流程Hive元数据YARN组件YARN执行流程HDFS架构HDFS读写流程hadoop的HA(高可用)实现和zk的作用常见HDFS优化计算引擎第6章 HiveSQL执行计划查看执行计划 eplain简单执行计划解读带普通函数/操作法的执行计划解读带聚合函数的执行计划解读高级分组聚合Hive表的连接第4章 Hive及相关大数据结构Hive工作流程客户端提交SQL作业到HiveServer2HiveServer2根据作业及数据库中元数据原创 2021-05-26 12:59:05 · 534 阅读 · 0 评论 -
Hive性能调优实战 总结一
Hive性能调优(一)第一章数据准备@SQL语句对性能影响数据块大小对性能影响数据格式对性能影响@分区和分桶对性能影响第一章 总结第二章理解经典wordcount使用explain查看HiveSQL的执行使用YARN提供的日志查看执行@通过改写SQL实现过程干预@通过SQL-Hint方法@通过开放的一些配置开关过度优化理透需求查看元信息运行环境梳理cube、grouping set、roll up相关规范第二章总结本文章对Hive性能调优实战这本书的总结第一章数据准备init_student 学生数原创 2021-05-25 13:00:39 · 863 阅读 · 1 评论 -
The Google File System 论文解读
The Google File System 论文解读1. 前言2. 架构2.1 架构设计3. Chunk3.1 chunk 大小与数量3.2 副本的位置 与 放置3.3 chunk 容错复制 和 负载均衡3.4 租赁(lease)4. master4.1 元数据4.2 chunk 管理4.3 操作日志 log4.4 快照 snapshoot4.5 命名空间锁5. Client6. 系统交互6.1 读6.2 写6.3 追加7. 一致性模型7.1 读、写、追加的一致性8. 垃圾回收9. 容错与诊断9.1 过原创 2021-05-19 17:34:36 · 2223 阅读 · 0 评论 -
生产者-消费者模型
生产者-消费者模型什么是生产者-消费者模式为什么要使用生产者消费者模式模型的优点生产者-消费者模式的应用场景wait()/notify()/notifyAll()synchronized配合实现MainProducerConsumer什么是生产者-消费者模式比如有两个进程A和B,它们共享一个固定大小的缓冲区,A进程产生数据放入缓冲区,B进程从缓冲区中取出数据进行计算,那么这里其实就是一个生产者和消费者的模式,A相当于生产者,B相当于消费者生产者线程:“生产”产品,并把产品放到一个队列里;消费者线程原创 2021-05-18 19:10:44 · 257 阅读 · 0 评论 -
Spark总结
Spark总结Spark的内置模块Spark的特点 和 hadoop的区别Spark的重要角色RDD持久化原理checkpoint检查点机制checkpoint和持久化机制的区别RDD机制理解吗Spark streaming以及基本工作原理Spark工作机制宽依赖和窄依赖Spark主备切换机制原理Spark数据倾斜的产生和解决方法Spark Sql 和 DataFrameRDD中reduceBykey与groupByKey哪个性能好Spark的内置模块Spark Core:Spark Core包含原创 2021-05-10 20:19:40 · 377 阅读 · 0 评论 -
HBase底层存储结构,HBase快速读取,hadoop的高可用和zk作用,网络模型,线程进程
HBase底层存储引擎Hbase为什么读取那么快Hbase使用场景zookeeper起什么作用的hadoop的HA(高可用)实现和zk的作用冷备份 secondary node工作原理:一个文件有上亿url,内存很小,找Top10OSI 的七层模型分别是?各自的功能是什么?说一下一次完整的HTTP请求过程包括哪些内容?DNS及其原理进程和线程的区别 和 使用场景一个进程可以创建多少线程,和什么有关?原创 2021-04-13 22:49:30 · 820 阅读 · 0 评论 -
HDFS特点,底层结构,重要组成部分、安全模式,重要进程,高可靠性,冷备份,读写流程,通讯过程
谈谈什么是Hadoop?HDFS文件系统的特点底层文件结构 好处HDFS存储文件类型HDFS的组成,重要角色安全模式HDFS的几个进程HDFS的高可靠性HDFS的读写流程yarn执行流程启动集群时,我们要对namenode进行格式化操作?为什么只能格式化一次客户端和NameNode、DataNode通信过程原创 2021-03-09 21:46:13 · 796 阅读 · 0 评论 -
Spark Streaming(组件、updateStateByKey、Windows)总结
Spark Streaming1. SparkStreaming 是什么2. 实时计算框架对比3. Spark Streaming组件4. Spark Streaming 编码实战(无状态)4.1 Spark Streaming编码步骤:4.2 利用Spark Streaming实现WordCount5. Spark Streaming的状态操作5.1 updateStateByKey5.2 案例:updateStateByKey5.3 Windows5.4 案例 windows1. SparkStrea原创 2020-10-26 18:35:22 · 674 阅读 · 0 评论