大数据
文章平均质量分 91
清忖灬
万事顺遂
展开
-
《Spark篇》------ Spark基础
reduceByKey(func):应用于(K,V)键值对的数据集时,返回一个新的(K,V)形式的数据集,其中每个值是每个key传递到函数func中进行聚合后的结果。Spark On YARN模式的搭建比较简单,仅需要在YARN集群上的一个节点上安装Spark即可,该节点可作为提交Spark应用程序到YARN集群的客户端。2)Spark中引入的RDD是分布在多个计算节点上的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可根据“血统”进行重建,保证高容错性。可变集合:可以在适当的地方被更新或扩展。原创 2023-06-12 12:27:19 · 2335 阅读 · 2 评论 -
《Hadoop篇》------HDFS与MapReduce
Namenode:接受客户端的请求,维护整个HDFS集群目录树,元数据信息的存储由namenode负责Datanode:主要是负责数据块的存储,定期向namenode汇报block:SecondaryNamenode不是第二个namenode,当namenode宕机时,不能由SecondaryNamenode顶替每个切片都是由一个mapTask处理。原创 2023-02-18 17:19:28 · 2610 阅读 · 5 评论 -
《Hadoop篇》------大数据及Hadoop入门
大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。(2)core-site.xml:配置Hadoop集群的元数据存储路径,配置主节点在哪一台机器上。Namenode:负责元数据的存储,接收客户端的请求,维护整个HDFS集群的目录树。hdfs dfs -get HDFS的根路径下的文件 本地的文件系统。前面一个/代表HDFS的根路径,后面一个/代表Linux的根路径。DataNode:负责数据块的存储,它是HDFS的小弟。原创 2023-02-15 20:34:27 · 625 阅读 · 0 评论