1 大数据概览
1.1 定义
Volume – 数据规模,KB-MB-GB-TB-PB等,需要可扩展的大存储
Variety – 数据多样性,(非、半)结构性数据
Velocity – 数据流转速度,数据被处理的频率及重要性,能对数据进行快速生成、收集和处理,且必须具有时效性
Value – 数据价值,通过分析学和大数据挖掘发现数据潜在价值
1.2 来源
人 – 社交网站、购物网站、搜索网站、游戏软件等
机器 – 服务器、车辆、感应器、地理位置等
商务 – 邮箱、短信、图片、视频等
1.3 类型
(1)结构化数据
- 具有固定模式和类型的数据
- 固定数据格式及长度
- 可通过统一格式表示并且存储在传统关系式数据库中(行列)
- 常见类型:数据库数据
(2)非结构化数据 - 数据格式和类型是任意的
- 常见类型:文本数据,音频数据,邮件数据等
(3)半结构化数据 - 无法直接存储在关系式数据库中
- 常见类型:XML,JSON
2 大数据处理及意义
全球数据总量中无结构数据量占比80%以上,单机采用Excel、Python等工具对数据处理分析存在以下弊端:
(1)无结构数据难处理
(2)单机处理效率不高
(3)无法存储海量信息
(4)难以提取数据价值
大数据处理特点:
(1)并行处理,多个机器一起工作,可扩展能力强
(2)处理速度迅速
(3)可快速处理多种数据格式,文本数据,音频数据等
3 大数据应用场景
移动支付行业:
- 支付宝欺诈行为检测
- 微信钱包理财推荐
- 京东白条用户违约分析
电商行业:
- 淘宝个性化商品推荐
- 利用数据精准营销
视频行业:
- 抖音用户短视频数据分析及推荐
- YouTube视频个性化推荐及广告精确推送