初识大数据

这是我的第一篇大数据博客,主要是谈谈我今天学习的大数据内容。

一、什么是大数据?
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。【取自搜狗百科】
二、大数据的研究方向
说法一:大数据分为大数据工程和大数据分析。(大数据分析很考验数学功底)
说法二:大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。
三、辅助学习内容(练就数学功底秘诀)
1.熟练掌握微积分:不一定要掌握多元微积分,但一元微积分是必须要熟练掌握并使用的。
2.精通线性代数:特别是矩阵的运算、向量空间、秩等概念。当前机器学习框架中很多计算都需要用到矩阵的乘法、转置或是求逆。
教材:
1.同济版《高等数学》,有条件可以去Coursea学习宾夕法尼亚大学的微积分课程
2.Strang的线性代数:《Introduction to Linear Algebra》
四、结构化数据与非结构化数据
这里写图片描述
五、数据仓库
1.数据仓库(英文名称为Data Warehouse,可简写为DW或DWH)

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
2.特点:
面向主题、集成的、不可更新、随时间而变化、汇总的、大容量、非规范化、元数据、数据源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值