目录:
1.发展概述
2.技术问题
笔记:
- 什么是大数据?
一开始的解决温饱,后来的物品交易,现在的远征开拓 - 大数据4V的特点
- Volume (大量性) ----数据多
- Variety (多样性) ----数据多
- Velocity (高实时性) ----数据快
- Value (价值低密度性) -----数据单一数据价值低,出现冗余的现象
- 技术问题
- 数据存储数量 --------云计算
- 数据存储方式 --------超级计算机(分布式计算)
- 数据计算方式 --------树莓派集群(分布式计算)
- 数据获取利用 ---------GPU计算
- hadoop
HDFS 分而治之 高容错性 提高比较大的吞吐量 适合超大数据集的应用程序
MapReduce 单个硬件设备满足不了的时候
Yarn 提供MapReduce的操作
- 大数据的数据来源
- 历史数据
- 商业数据(获取原存在问题)
- 共享数据 (imagenet)
- 网络数据 (爬虫)
- IoT数据 (物联网 )
- 获取手段
- 收集各类共享数据库
- 网络爬取所需数据
- 通过数据特征变换 (不改变分布的情况下进行数据填充)
- 数据爬取
- 特征工程
- 特征清洗
清洗异常数据:直接删除异常数据
采样的数据不均衡问题 重采样复制之后进行进一步处理 - 预处理
单特征的标准化
特征X不在一个量纲里面 对应的参数T也不一样
归一化:标准化 求最优解
离散化 :用单个数据表示一段连续化数据
- 数据可视化
excel
seaborn库
poltly库
sugar
Echarts
Tableau
- 机器学习
有监督学习
强化学习
半监督学习
-
有监督学习
有标签的训练场数据
监督学习的两个典型分类:分类 回归
线性回归:最小二乘法
逻辑回归:映射到0–1的区间 -
半监督学习
数量较小的有标记的样本数据来完成操作
大量未标记的数据和少量标签数据。
-
强化学习
以奖励信号函数值最大------> 阿尔法狗