1 大数据分析
1.1 主要任务
分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等,分为预测和描述两大类。
预测:根据其他属性的值预测特定属性的值,在数据上进行归纳以做出预测。
描述:导出和概括数据的潜在模式(相关,趋势,聚类),刻画目标数据的一般性质。
1.2 主要方法
监督学习(supervised learning):训练数据有类标签。
无监督学习:数据的类标签是未知的,给定一组观察值或测量值,建立在数据中可能存在的类或集群。
半监督学习
深度学习(deep learning)
集成学习
1.3 分析任务
1.3.1 监督学习
分类(classification):预测类标签。
回归(regression):目的在于了解两个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的内容。如预测未知值或缺失值。
1.3.2 无监督学习
①聚类(cluster):给定一组数据点,将它们划分为一组数据组。同一组中彼此相似或相关,与其他组的对象不同或不相关。
算法:K-Means
- 选择k个点作为初始质心
- 通过将每个点分配给其最近的质心来形成k个簇
- 重新计算每个集群的质心
- 重复上面两个步骤,直到满足收敛准则
②异常分析(outlier analysis):一个明显偏离一般对象的数据对象,就好像它是由不同的机制产生的一样。
应用:信用卡欺诈检测,电信欺诈检测
③关联规则挖掘(association rules mining):一种经常发生在数据集上的模式。
2 大数据学习
2.1 分布式机器学习 DML
Distributed Machine Learning
使用多个节点进行机器学习或深度学习的系统,目标是利用计算机集群来实现大规模机器学习模型训练,将数据划分并分配带多个工作节点,每个工作节点根据局部数据进行模型训练,做集成来得到完整的模型。
DML模块:
- 数据和模型分隔模块:由于没有共享内存或者数据规模太大,数据被分割并分配到各个工作节点上。
- 单机最优化模块:每个工作节点根据分配给它的局部训练数据和子模型来训练子模型。
- 通信模块:通信内容主要是子模型参数和参数更新信息。
- 聚合模块:通过聚合不同工作节点的参数来生成一个全局模型。
2.2 联邦学习
Federated Learning
一种机器学习技术,利用存储在分散的设备或服务器上的本地数据来训练模型,而不用交换数据。使得多个参与者能够在不共享数据的情况下构建一个通用的、健壮的机器学习模型。解决诸如数据隐私、数据安全、数据访问权限和对异构数据的访问等关键问题。
数据呈现:用矩阵来呈现数据D;每一行表示一个数据样本,每一列表示一个特征
分类:
- 水平(样本联合学习)
参与者的数据集具有重合的数据特征,但是拥有的数据样本不同。
例如:一家银行在上海和深圳的分公司
- 垂直(特征联合学习)
参与者的数据集具有重合的样本,但是拥有的数据特征不同。
例如:相同区域的两个不同机构
- 迁移(迁移联邦学习)
参与者的数据样本和特征都很少重叠。
例如:不同区域的两家不同公司
3 大数据可视化
3.1 图可视化
节点连接图:
- 直接反映网络关系
- 能够表示图的整体结构、集群和路径
- 不太适合稠密图(尤其是关系密集型)
图的简化:
- 边绑定
- 邻接矩阵:适合稠密图;可视化结果相对抽象,不能追踪路径
- GMap :用平面来表示对象,平面的连通性表示了物体之间关系的一种“映射”
3.2 高维数据
由多重属性的数据
- 平行坐标轴
①背景为N个平行坐标轴,每条线表示一个属性。②高维空间中的一个点用N个平行坐标轴上的多段线表示。③第K个坐标轴上的位置表示该店在第K维中的值。
- 散点图矩阵
①使用二维散点图来表示每个维度对之间的关系。②直接显示了这两个维度的相关性。散点图的数量与数据维度的平方成正比。
- 降维
使用线性变换或非线性变换把高维数据投影到低维空间。
常用降维方法:
1.主成分分析(Principal Component Analysis,PCA):仅适用于数值型数据
2.线性判别分析(Latent Dirichlet Allocation,LDA)
3.多维定标(Multidimensional Scaling,MDS)
4.因子分析(Factor Analysis,FA)
3.3 时空数据
有地理位置和时间戳的数据。
3.4 文本可视化
可视化显示文本中的语义特征(词频、逻辑结构、主题聚类、动态演化规律)
- 词云
- 语义结构可视化
- 文本动态可视化
3.5 交互式可视化
视觉分析是一种科学技术,通过交互式视觉界面帮助用户分析和推理大规模复杂数据集。
连个主要组成部分:表示和交互。