大数据技术变革
- 技术驱动
数据量大
存储:文件存储 ==> 分布式存储(拆分存储在多个机子,而且以副本存储)
计算:单机 ==> 分布式计算
网络:万兆
数据库:关系型数据库 ==> NoSQL(HBase/Redies) - 商业驱动
结合公司业务创造价值
大数据现存模式
- 手握大数据,没有大数据思维(金融、政府)
- 没有大数据,有大数据思维(IT大数据分析公司)
- 既有大数据,又有大数据思维(google,雅虎)
大数据技术概念
- 通过升级硬件
- 分布式并行计算(多个机子并行计算)
数据采集 (==》精细化处理 ==》)数据存储
最后数据可视化
数据采集:Flume Sqoop
数据存储:Hadoop
数据处理:Hadoop、Spark、Flink
可视化:JavaEE、Python
大数据在技术架构上的挑战:
- 对现有数据库管理技术的挑战
- 经典数据库技术并没有考虑数据的多类别
- 实时性的技术挑战
- 网络架构、数据中心、运维挑战
- 数据隐私
- 数据源复杂多样
如何对大数据惊醒存储和分析?
存储容量---->MapReeduce
读写速度----->Big Table
计算效率------>GFS
大数据典型应用
(类型角度)
count/sum/avg
grounp by/join
窗口分析函数
异常/欺诈检测
人工智能
(时间角度)
报表
用户细分
指标监控
指标预警