《Hadoop金融大数据分析》读书笔记

《Hadoop金融大数据分析》 Hadoop for Finance Essentials

使用Hadoop,是因为数据量大
数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据

3V定义:即“大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度。
大量指的是数据的量很大,
多样指的是数据的类型很多,
高速指的是数据处理的速度很快


对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,
对于处理TB级数据的大公司来说,PB级的数据,则被认为是大数据

就常规而言,大数据至少是TB级的

 

除了想要存储无尽的数据,企业也需要分析它们

数据以不同的形式存储,其中大量的交易数据被称为结构化数据,图像和音频等数据被称为非结构化数据

 

ETL:提取Extract,转换Transform,加载Load 

现在的企业需要处理异构型数据,从Excel表格,数据库到纯文本、图片、视频、网络数据、GPS数据、传感器数据、文本数据、移动信息数据、甚至包括可以扫描和转换成电子格式的文件

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值