- 博客(4)
- 收藏
- 关注
原创 数据仓库和数据库的区别
面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant )数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单 数据即可,符合业务应用,但是不符合分析。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。数据库是面向事务的设计,数据仓库是面向主题设计的。
2024-04-24 23:46:48 728
原创 HDFS文件系统
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS()是项目的一个子项目. Hadoop非常适于存储大型 数据 (比如TB和PB),其就是使用HDFS作为存储系统. HDFS使用多台计算机存储文件并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。
2024-04-23 22:24:06 1108
原创 Hadoop的基础知识
1.什么是HadoopHadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案2. Hadoop的发展他的创始人是Doug Cutting基于Nutch搜索项目发展他的发展受到Google三篇著名的论文影响3. Hadoop的版本Apache开源社区版(原生版本)Cloudera等商业公司自行封装的商业版。
2024-04-23 00:18:21 519 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人