头歌-大数据与云计算
文章平均质量分 73
vincc177
这个作者很懒,什么都没留下…
展开
-
SparkSQL简单使用
Spark SQL是用来操作结构化和半结构化数据的接口。 当每条存储记录共用已知的字段集合,数据符合此条件时,Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说,Spark SQL提供了以下三大功能: (1) Spark SQL可以从各种结构化数据源(例如JSON、Parquet等)中读取数据。原创 2022-12-20 16:33:31 · 2297 阅读 · 1 评论 -
基于HDFS的电商数据存储
原始电商数据都是存储在关系型数据库或 NoSQL 数据库上的,是面向OLTP(联机事务处理过程)的;数据都是面向业务的,而不是面向分析。因此数据比较复杂,表很多关联的数据是分散的,不利于统计分析;因此需要把数据从多个表里导出来、联合起来,找出分析所需要的数据项,然后把这些数据存入到 HDFS 中。原创 2022-12-18 13:12:35 · 1021 阅读 · 0 评论