第四章 分析和可视化

1 大数据分析

1.1 主要任务

分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等,分为预测和描述两大类。

预测:根据其他属性的值预测特定属性的值,在数据上进行归纳以做出预测。

描述:导出和概括数据的潜在模式(相关,趋势,聚类),刻画目标数据的一般性质。

1.2 主要方法

监督学习(supervised learning):训练数据有类标签。

无监督学习:数据的类标签是未知的,给定一组观察值或测量值,建立在数据中可能存在的类或集群。

半监督学习

深度学习(deep learning)

集成学习

1.3 分析任务

1.3.1 监督学习 

分类(classification):预测类标签。

回归(regression):目的在于了解两个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的内容。如预测未知值或缺失值。

1.3.2 无监督学习

①聚类(cluster):给定一组数据点,将它们划分为一组数据组。同一组中彼此相似或相关,与其他组的对象不同或不相关。

算法:K-Means

  • 选择k个点作为初始质心
  • 通过将每个点分配给其最近的质心来形成k个簇
  • 重新计算每个集群的质心
  • 重复上面两个步骤,直到满足收敛准则

 ②异常分析(outlier analysis):一个明显偏离一般对象的数据对象,就好像它是由不同的机制产生的一样。

应用:信用卡欺诈检测,电信欺诈检测

③关联规则挖掘(association rules mining):一种经常发生在数据集上的模式。

2 大数据学习

2.1 分布式机器学习 DML

Distributed Machine Learning

使用多个节点进行机器学习或深度学习的系统,目标是利用计算机集群来实现大规模机器学习模型训练,将数据划分并分配带多个工作节点,每个工作节点根据局部数据进行模型训练,做集成来得到完整的模型。

DML模块:

  • 数据和模型分隔模块:由于没有共享内存或者数据规模太大,数据被分割并分配到各个工作节点上。
  • 单机最优化模块:每个工作节点根据分配给它的局部训练数据和子模型来训练子模型。
  • 通信模块:通信内容主要是子模型参数和参数更新信息。
  • 聚合模块:通过聚合不同工作节点的参数来生成一个全局模型。

2.2 联邦学习

Federated Learning

一种机器学习技术,利用存储在分散的设备或服务器上的本地数据来训练模型,而不用交换数据。使得多个参与者能够在不共享数据的情况下构建一个通用的、健壮的机器学习模型。解决诸如数据隐私、数据安全、数据访问权限和对异构数据的访问等关键问题。

数据呈现:用矩阵来呈现数据D;每一行表示一个数据样本,每一列表示一个特征

分类:

  • 水平(样本联合学习)

参与者的数据集具有重合的数据特征,但是拥有的数据样本不同。

例如:一家银行在上海和深圳的分公司

  • 垂直(特征联合学习)

参与者的数据集具有重合的样本,但是拥有的数据特征不同。

例如:相同区域的两个不同机构

 

  •  迁移(迁移联邦学习)

参与者的数据样本和特征都很少重叠。

例如:不同区域的两家不同公司

 3 大数据可视化

3.1 图可视化

节点连接图:

  • 直接反映网络关系
  • 能够表示图的整体结构、集群和路径
  • 不太适合稠密图(尤其是关系密集型)

 

图的简化:

  • 边绑定

  • 邻接矩阵:适合稠密图;可视化结果相对抽象,不能追踪路径

  • GMap :用平面来表示对象,平面的连通性表示了物体之间关系的一种“映射”

 

3.2 高维数据

由多重属性的数据

  • 平行坐标轴

①背景为N个平行坐标轴,每条线表示一个属性。②高维空间中的一个点用N个平行坐标轴上的多段线表示。③第K个坐标轴上的位置表示该店在第K维中的值。

  • 散点图矩阵

①使用二维散点图来表示每个维度对之间的关系。②直接显示了这两个维度的相关性。散点图的数量与数据维度的平方成正比。

 

  • 降维

使用线性变换或非线性变换把高维数据投影到低维空间。

常用降维方法:

1.主成分分析(Principal Component Analysis,PCA):仅适用于数值型数据

2.线性判别分析(Latent Dirichlet Allocation,LDA)

3.多维定标(Multidimensional Scaling,MDS)

4.因子分析(Factor Analysis,FA)

3.3 时空数据 

有地理位置和时间戳的数据。 

3.4 文本可视化

可视化显示文本中的语义特征(词频、逻辑结构、主题聚类、动态演化规律)

  • 词云
  • 语义结构可视化
  • 文本动态可视化

3.5 交互式可视化 

视觉分析是一种科学技术,通过交互式视觉界面帮助用户分析和推理大规模复杂数据集。

连个主要组成部分:表示和交互。 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值