数据仓库
文章平均质量分 64
小小的很可爱
这个作者很懒,什么都没留下…
展开
-
数据库和数据仓库的区别
数据库不能存海量数据,查询效率会慢,不能直接作为数据统计分析的数据源,数据太少。 需要周期性将业务数据库的数据同步到数据仓库的数据源中,这个同步的过程叫采集。 Spark中存在shuffle操作的,所谓的shuffle其实就是将数据落盘, 数据源 =》 加工数据 =》 统计数据 =》分析数据(排序,取前多少条) 数据仓库自己的数据源来自业务数据库的数据,不断汇总业务数据库的数据, 对数据源中的数据进行加工处理,为了后面的数据统计分析做准备。原创 2024-03-01 19:24:00 · 1459 阅读 · 0 评论 -
hive on spark 出现的问题 Spark job failed during runtime. Please check stacktrace for the root cause.
引擎使用spark会出现各种问题,可以尝试将引擎换成MR。出现此问题,可能是表之间的连接出现了错误。此时将会报上述的错误。原创 2024-02-29 19:30:26 · 541 阅读 · 0 评论