大数据
文章平均质量分 88
Hadoop Spark
@从心
小菜鸟想要把基础打好
展开
-
大数据学习之数据仓库Hive
数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。传统的数据仓库是数据存储产品也是数据处理分析产品,能同事支持数据的存储和处理分析传统数据仓库所面临的挑战无法满足快速增长的海量数据存储需求无法有效处理不同类型的数据计算和处理能力不足构建在Hadoop平台之上的HiveHive本身不支持数据存储和处理,为用户提供了一种编程语言...原创 2021-12-27 15:54:37 · 1616 阅读 · 0 评论 -
大数据学习之MapReduce
MapReduce概述MapReduce是一种分布式并行编程框架,借助一个集群通过多台机器同时并行处理大规模数据集MapReduce的策略MapReduce采用分而治之的策略。把庞大的数据集,切分成非常多的独立的小分片,然后为每个分片单独地启动一个map任务,最终通过多个map任务,并行地在多个机器上处理MapReduce的理念计算向数据靠拢而不是数据向计算靠拢要完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放到计算节点上运行然后把它所涉及的数据,全部从各个不同的节点上面拉原创 2021-12-24 15:47:56 · 2082 阅读 · 0 评论 -
大数据学习之NoSQL数据库
NoSQL的概述NoSQL的特点灵活的扩展性灵活的数据模型与云计算密切相关传统关系数据库性能缺陷无法满足海量数据的管理需求无法满足高并发的需求无法满足高可扩展性和高可用性的需求MySQL集群方式的缺陷复杂性,整个集群部署管理配置都非常复杂延迟性,当主库压力较大时,就会带来较大的延迟扩容问题,整个集群压力过大时,需要增加新机器对整个数据集进行重新分区,非常复杂NoSQL数据库与关系数据库的比较数据库原理方面,关系数据库具有完备的关系代数理论作为基础;NoSQL数据库缺原创 2021-12-24 10:20:50 · 1969 阅读 · 0 评论 -
大数据学习之分布式数据库HBase
HBase简介HBase就是BigTable的开源实现,是一个稀疏的多维度的排序的映射表,可以用来存储非结构化和半结构化的松散数据,通过水平扩展的方式,允许几千台服务器去存储海量文件HBase的特点高可靠高性能面向列可伸缩HBase与传统的关系型数据库的联系与区别数据类型方面,传统的关系数据库用的是经典的关系数据模型,有非常多的数据类型和存储方式;而HBase的数据模型就很简单,把存储的数据存储为未经解释的字符串,靠开发人员读取数据来解释数据类型。数据操作方面,在关系数据库当中定义原创 2021-12-23 16:22:28 · 2122 阅读 · 0 评论 -
大数据学习之分布式文件系统HDFS
HDFS的实现目标兼容廉价的硬件设备实现流数据的读写支持大数据集支持简单的文件模型强大的跨平台兼容性HDFS的局限性不适合低延迟数据访问,不支持实时性的访问数据无法高效存储大量的小文件,小文件越多,搜索耗时越大不支持多用户写入,以及任意修改文件,只允许追加不允许修改...原创 2021-12-22 17:58:50 · 701 阅读 · 0 评论 -
大数据学习之Hadoop
大数据的关键技术:批处理技术、流计算、图计算、查询分析计算大数据处理架构Hadoop1. Hadoop简介apache软件基金会的开源软件,使用Java开发,但是Hadoop支持多种编程语言,有两大核心HDFS、MapReduceHadoop的特点:高可靠性。多太机器构成集群,冗余副本机制,部分机器发生故障,也不影响剩余机器的服务高效性。用多台机器来做计算,效率自然就高了高可拓展性。机器(节点)的数量没有限制低成本。可使用多个普通的pc机器构建集群高性能计算。Hadoop的应用现状原创 2021-12-22 14:53:25 · 478 阅读 · 0 评论 -
spark编程
创建RDD# 内部创建list1 = [1,2,3,4,5,6]set1 = set(list1)rdd1 = sc.parallelize(list1)rdd2 = sc.parallelize(set1)print(rdd1.collect())print(rdd2.collect())rdd2.getNumPartitions() # 获取分区# 从文件读取数据创建RDDrdd3 = sc.textFile(r'D:\ws\spark\test.txt')rdd3.co原创 2021-04-07 21:59:25 · 466 阅读 · 0 评论