这是我的第一篇大数据博客,主要是谈谈我今天学习的大数据内容。
一、什么是大数据?
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。【取自搜狗百科】
二、大数据的研究方向
说法一:大数据分为大数据工程和大数据分析。(大数据分析很考验数学功底)
说法二:大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。
三、辅助学习内容(练就数学功底秘诀)
1.熟练掌握微积分:不一定要掌握多元微积分,但一元微积分是必须要熟练掌握并使用的。
2.精通线性代数:特别是矩阵的运算、向量空间、秩等概念。当前机器学习框架中很多计算都需要用到矩阵的乘法、转置或是求逆。
教材:
1.同济版《高等数学》,有条件可以去Coursea学习宾夕法尼亚大学的微积分课程
2.Strang的线性代数:《Introduction to Linear Algebra》
四、结构化数据与非结构化数据
五、数据仓库
1.数据仓库(英文名称为Data Warehouse,可简写为DW或DWH)
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
2.特点:
面向主题、集成的、不可更新、随时间而变化、汇总的、大容量、非规范化、元数据、数据源