![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据篇
汇总了一些大数据的相关知识如分布式框架
Aurora Top
希望你所有的坚持是因为热爱,而非不甘
展开
-
大数据学习第三篇
所有收集的数据都已转换为相同的格式。根据要求,格式可以是任何格式。在该步骤中,将一组函数规则应用于提取的数据以将其转换为单个标准格式。收集来自不同来源的数据,如文本文件,XML文件,Excel文件或各种其他来源。从各种来源收集大量数据,转换它们,最后加载到数据仓库。过滤:仅将特定属性加载到数据仓库中。加入:将多个属性加入到一个属性中。清除:使用特定的默认值填充空值。拆分:将单个属性拆分为多个属性。排序:根据属性对元组进行排序。原创 2023-07-10 17:27:52 · 55 阅读 · 0 评论 -
大数据学习第一篇
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark,拥有Hadoop MapReduce所具有的优点;基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供HQL查询功能,能将SQL语句转变成MapReduce任务来执行。HBase是一个分布式的、面向列的开源数据库、HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。原创 2023-07-07 17:43:53 · 84 阅读 · 0 评论 -
大数据学习第二篇
HQL:from 后面跟的 类名+类对象, where 后用对象的属性做条件,增删改直接调用封装好的save()、delete()、update()方法。SQL:from 后面跟的是表名,where 后 用表中字段做条件查询。SQL面向数据库表查询。二、HQL的增删改查。原创 2023-07-07 17:57:38 · 41 阅读 · 0 评论