大数据基础
Pennhhe
对时间有耐心
展开
-
1. Spark 调优
Tuning Spark1. 数据序列化1.1 Java 序列化优点:默认设置。使用场景广。无需特殊设置。缺点慢1.2 Kycro 序列化优点快压缩性高缺点并不是支持所有的序列化类型需要手工设置2. 内存调优2.1 内存调优的关注点对象使用的内存访问对象的代价垃圾回收2.2 Java对象占用空间大的原因对象头占有空间...原创 2019-05-02 12:35:54 · 90 阅读 · 0 评论 -
【Spark】2. RDD编程指南
1. 基本概念RDD:分布式弹性数据集,能够并行处理,支持容错。2. RDD的数据来源2.1 并行集合并行集合的元素会被拷贝到分布数据集中,能够被并行处理。val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)partions 分区数,把一个RDD分成多块2.2 外部数据集本地文件系统,HDFS...原创 2019-05-24 16:06:23 · 159 阅读 · 0 评论 -
【Spark】RDD核心
1. RDDA Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel. This class contains the...原创 2019-06-03 09:44:56 · 133 阅读 · 0 评论 -
【Spark】Spark集群模式
1. 组件Spark applications 是在运行在集群上一系列独立的进程集合,由SparkContext进行调度。SparkContext 能够连接以下几种集群管理:standlone cluster manafer,Mesos,Yarn。这些集群管理负责资源的分配。一旦SparkContex连接上集群管理,Spark要求集群中的节点分配executors,executors 是...翻译 2019-06-03 10:38:48 · 183 阅读 · 0 评论 -
【大数据基础】1. Dataset
1. 简介Dataset 是强类型的objects的集合,能够使用函数式和关系式并行的操作。Dataset还有一个名为DataFrame的无类型视图,DataFrame是Row的集合。Dataset中的操作分为两种:transformation 和 action。transformation 是用于产生新的Dataset,action 触发计算并返回结果。Dataset是懒加载的,只用act...原创 2019-07-11 13:19:25 · 1043 阅读 · 0 评论 -
【大数据基础】Datanode
Datanode 的实现1. 数据块存储1.1 数据节点的磁盘目录文件结构${dfs.data.dir} 数据目录blocksBeingWritten 正在写的数据块,由客户端发起current 已经写入的数据块detach 配合升级的临时路径tmp 数据块复制引发的,保存正在写的数据块${dfs.data.dir}/currentHDFS数据块met...原创 2019-07-18 15:13:30 · 238 阅读 · 0 评论 -
【大数据基础】HDFS
1. HDFS1.1 特性支持超大文件检测和快速应对硬件故障流式数据访问简化的一致性模型低延迟数据访问大量潇的文件多用户写入、修改文件1.2 体系结构namenode: 分布式文件系统中的管理者,负责管理文件系统命名空间,集群配置和数据块复制。datanode: 文件存储的基本单元,以数据块的形式保存HDFS中文件的内容和数据块的数据校验信息客户端和namenode...原创 2019-07-16 18:22:20 · 120 阅读 · 0 评论 -
【大数据基础】HBase
HBase1. 概念1.1 数据模型表由行和列组成。表的单元格是行和列坐标的交集,他们有版本号。版本号是自动分配的时间戳。表的行键,表的主键,对表中的行进行排序。默认情况下,以字节为序,所有的表都通过主键进行访问。每行的列被分组,形成列族。所有的列族成员有相同的前缀。temperature:air 和 temperature:dew_point 都是temperature列族的成员。表的...原创 2019-07-19 14:22:02 · 154 阅读 · 0 评论