大数据
大数据知识分享
GitCloud
这个作者很懒,什么都没留下…
展开
-
大数据系列(8)Hadoop生态简介
生态圈HBase简介高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库利用HDFS作为其文件存储系统,支持MR程序读取数据存储非结构化和半结构化数据RowKey:数据唯一标识,按字典排序Column Family:列族,多个列的集合,最多不要超过3个**TimeStamp时间戳:**支持多版本数据同时存在Spark基于内存的大数据并行计算框架Spark是MapRed...原创 2020-04-15 21:56:31 · 137 阅读 · 0 评论 -
大数据系列(7)Hadoop总结及延伸思考
延伸思考如何通过Hadoop存储小文件?当有节点故障的时候,集群是如何继续提供服务的,如何读,如何写?哪些是影响MapReduce性能的因素?原创 2020-04-15 21:31:37 · 200 阅读 · 0 评论 -
大数据系列(6)MapReduce实战
通过Python程序演示Map方法和Reduce方法提交基于MapReduce模型的WordCount程序并执行原创 2020-04-15 21:27:05 · 185 阅读 · 0 评论 -
大数据系列(5)Mapreduce和Yarn简介
MapReduce简介MapReduce是一种编程模型,是一种编程方法,是抽象的理论。YARN概念ResourceManagerApplicationMasterNodeManagerResourceManager分配和调度资源启动并监控ApplicationMaster监控NodeManagerApplicationMaster为MR类型的程序申请资源,并分配给内...原创 2020-04-15 21:07:21 · 166 阅读 · 0 评论 -
大数据系列(4)python程序操作HDFS
hdfs3这个python模块不再维护了,推荐使用pyarrow原创 2020-04-15 20:42:02 · 175 阅读 · 0 评论 -
大数据系列(3)Shell命令操作HDFS
实战HDFS操作通过Shell命令对HDFS进行操作,与Linux操作文件类似通过编写Python程序对HDFS进行操作常用HDFS Shell命令类Linux系统:ls,cat,mkdir,rm,chmod,chown等HDFS文件交互:copyFromLocal,copyToLocal,get,put...原创 2020-04-15 20:30:42 · 449 阅读 · 0 评论 -
大数据系列(2)HDFS写流程和读流程
两个问题数据块一般设置为128M如今的NameNode有两个节点,解决了如今的单点问题HDFS写流程客户端向NameNode发起写数据请求分块写入DataNode节点,DataNode自动完成副本备份DataNode向NameNode汇报存储完成,NameNode通知客户端HDFS读流程客户端向NameNode发起读数据请求NameNode找出距离最近的DataNo...原创 2020-04-15 10:40:33 · 125 阅读 · 0 评论 -
大数据系列(1)Hadoop是什么?
HadoopHadoop是一个开源的大数据框架Hadoop是一个分布式计算的解决方案Hadoop=HDFS(分布式文件系统)+ MapReduce(分布式计算)Hadoop核心HDFS分布式文件系统:存储是大数据技术的基础MapReduce编程模型:分布式计算时大数据应用的解决方案HDFS普通的成百上千的机器按TB甚至PB为单位的大量的数据简单便捷的文件获取Had...原创 2020-04-15 10:23:36 · 252 阅读 · 0 评论