数据仓库
正在喝茶
从事数据分析与研发工作
展开
-
了解数据仓库
面临的场景 公司要搞数据分析,但是数据存储在不同的数据库中,有的在mysql,有的在oracle甚至有的是第三方数据,需要把这些数据整合在一起进行统一的分析处理。 怎么找到一个合理而且主流的解决方案呢?经过技术调研,我们发现这正是数据仓库的使用场景,建立数据仓库可以很好的解决这一问题。 什么是数据仓库? 我们通过一个小故事来理解一下吧 在很久很久以前,世界上生活着许多种族,有...原创 2019-01-06 11:38:36 · 295 阅读 · 0 评论 -
数据仓库工具之hive介绍
Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。 hive的主要用途:用来做离线数据分析,比直接用MapReduce程序开发效率更高。 直接使用MapReduce所面临的问题: 人员学习成本太高:使用mr直接分析数据的前提是需要开发复杂的mapreduce程序,这对于数据仓库的受众...原创 2019-01-06 11:39:44 · 1275 阅读 · 1 评论 -
Hive数据组织方式介绍
Hive和普通DB的异同 Hive将元数据存储在RDBMS中,一般使用的数据库有mysql和derby。 默认的情况下hive将元数据保存在内嵌的derby数据库中,但是只能允许一个会话连接,只适合做简单的测试。这种部署当时在实际生产环境中不适用。为了支持多用户会话,需要一个独立的元数据存储数据库,使用mysql可以满足这个需求,并且hive内部对mysql提供了很好的支持。 实际...原创 2019-01-06 11:42:15 · 674 阅读 · 0 评论