![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据管理与分析
文章平均质量分 74
黄昏贩卖机
这个作者很懒,什么都没留下…
展开
-
大数据管理与分析 第十一章 流计算
离线分析延时较大,需要实时分析数据Twitter分层的数据处理架构由Hadoop和ElephantDB组成批处理系统,Storm和Cassandra组成实时系统,实时系统处理的结果最终会由批处理系统来修正,正是这个观点使得Storm的设计与众不同......原创 2022-06-24 21:49:44 · 203 阅读 · 0 评论 -
大数据管理与分析 第九章 预处理
等宽划分等深划分平滑方式,可以用均值,中位数,边界值等卡方:X2X^2X2越大,变量相关性越强各个期望值怎么计算出来的?假设两个变量是不相关的,对于喜欢科幻小说的总人数是 450人,喜欢下象棋的:不喜欢下棋 = 1:4,即喜欢科幻小说有喜欢下象棋的有 4500.25 = 90,既喜欢科幻小说又不喜欢下象棋的人有 4500.75 = 360人......原创 2022-06-24 21:29:01 · 91 阅读 · 0 评论 -
大数据管理与分析 第八章 数据挖掘
欧氏距离曼哈顿距离局限性MapReduce并行化设计思路P(Yi∣X)=P(Yi)∗P(X∣Yi)/P(X)P(Yi|X) = P(Yi)*P(X|Yi) / P(X)P(Yi∣X)=P(Yi)∗P(X∣Yi)/P(X)y=argmaxckP(Y=ck)∏jP(Xj=xj∣Y=ck)y = \arg\max_{ck} P(Y=ck)\prod_j P(X_j = x_j|Y=ck)y=argckmaxP(Y=ck)j∏P(Xj=xj∣Y=ck)并行化算法设计思路输出 Yi出现的频度原创 2022-06-24 20:21:16 · 221 阅读 · 0 评论 -
大数据管理与分析 第七章 spark
RDD支持两种操作类型;Lineage(世系系统、依赖系统):RDD提供一种基于粗粒度变换的接口,这使得RDD可以通过记录RDD之间的变换,而不需要存储实际的数据,就可以完成数据的恢复,使得Spark具有高效的容错性检查点:对于很长Lineage的RDD,通过lineage 来恢复耗时长,在对包含宽依赖的长世系的RDD设置检查点操作非常有必要Map阶段Reduce 阶段关于pagerank的介绍1:GraphBuilder:建立网页之间的超链接图2:RageRankIter3:Rankviewer.....原创 2022-06-24 16:20:30 · 88 阅读 · 0 评论 -
大数据管理与分析 第六章 Hive和数据仓库
集成的时变的(反应历史变化)非易失的OLTP :Online Transaction Processing 联机事务处理 DBMSOLAP:Online Analytical Processing 联机分析处理 仓库两个系统都需要高性能功能不同,所含数据不同使用hadoop进行数据分析Hive......原创 2022-06-24 11:46:15 · 299 阅读 · 0 评论 -
大数据管理与分析 第五章 HBase
RDBMS 的局限性HBase在Hadoop中的生态环境一个分布式多维表,表中数据通过:HBase子表数据存储与子表服务器HBase子表服务器和主服务器HBase使用三层类似B+树结构来保存Region位置原创 2022-06-24 00:44:21 · 290 阅读 · 0 评论 -
大数据管理与分析 第四章 MapReduce
不可拆分的计算任务或者相互之间有依赖关系的数据无法进行并行计算两个抽象编程接口Combiner: 合并相同主键的键值对,减少网络传输的开销,进行中间数据网络传输的优化工作。在map节点计算完成之后,输出中间结果之前进行。Partitioner:对map输出的中间结果进行一定的划分,保证相关数据发送到同一个reduce节点。在map节点输出后,传入reduce结点之前完成。partitioner构造一个两层的trie 树,根据 key的前两字节确定划分蒙骗partition:将组合键 ......原创 2022-06-23 21:05:56 · 313 阅读 · 1 评论 -
大数据管理与分析 第三章 HDFS
目录节点 NameNode 是集群中的主节点,负责管理整个HDFS的命名空间和元数据,是客户端访问HDFS系统的入口,目录节点保存文件系统的三种元数据数据节点一般就是集群中的一台机器,复杂数据的存储和读取HDFS 是不能直接访问各个datanode 的Linux文件系统的当客户端要在HDFS上写一个文件:文件复制功能:HDFS 默认有3个副本硬件和操作系统的异构性:HDFS由JAVA实现,可以在不同操作系统和计算机上实现相同的客户端和服务成序容错能力:心跳检测,检测文件快的完整性,集群负载均衡,为何原创 2022-06-23 16:35:34 · 192 阅读 · 0 评论 -
大数据管理与分析 2 hadoop
大数据原创 2022-06-23 14:45:43 · 107 阅读 · 0 评论 -
大数据管理与分析 1 大数据概述
大数据概述 大数据特征 4个V原创 2022-06-23 10:51:21 · 371 阅读 · 0 评论 -
大数据题目
Namenode Datanoed 通信故障 节点故障贝叶斯hive 运行过程数据仓库 四个特点原创 2022-06-08 17:01:12 · 84 阅读 · 0 评论