第四章分析和可视化

程序小猴_

于 2023-11-14 16:15:00 发布

阅读量72

点赞数 1

分类专栏：大数据技术导论学习笔记文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75466929/article/details/134365506

版权

大数据技术导论学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1 大数据分析

1.1 主要任务

分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等，分为预测和描述两大类。

预测：根据其他属性的值预测特定属性的值，在数据上进行归纳以做出预测。

描述：导出和概括数据的潜在模式（相关，趋势，聚类），刻画目标数据的一般性质。

1.2 主要方法

监督学习（supervised learning）：训练数据有类标签。

无监督学习：数据的类标签是未知的，给定一组观察值或测量值，建立在数据中可能存在的类或集群。

半监督学习

深度学习(deep learning)

集成学习

1.3 分析任务

1.3.1 监督学习

分类（classification）：预测类标签。

回归（regression）:目的在于了解两个变量间是否相关、相关方向与强度，并建立数学模型以便观察特定变量来预测研究者感兴趣的内容。如预测未知值或缺失值。

1.3.2 无监督学习

①聚类（cluster）：给定一组数据点，将它们划分为一组数据组。同一组中彼此相似或相关，与其他组的对象不同或不相关。

算法：K-Means

选择k个点作为初始质心
通过将每个点分配给其最近的质心来形成k个簇
重新计算每个集群的质心
重复上面两个步骤，直到满足收敛准则

②异常分析（outlier analysis）:一个明显偏离一般对象的数据对象，就好像它是由不同的机制产生的一样。

应用：信用卡欺诈检测，电信欺诈检测

③关联规则挖掘（association rules mining）：一种经常发生在数据集上的模式。

2 大数据学习

2.1 分布式机器学习 DML

Distributed Machine Learning

使用多个节点进行机器学习或深度学习的系统，目标是利用计算机集群来实现大规模机器学习模型训练，将数据划分并分配带多个工作节点，每个工作节点根据局部数据进行模型训练，做集成来得到完整的模型。

DML模块：

数据和模型分隔模块：由于没有共享内存或者数据规模太大，数据被分割并分配到各个工作节点上。
单机最优化模块：每个工作节点根据分配给它的局部训练数据和子模型来训练子模型。
通信模块：通信内容主要是子模型参数和参数更新信息。
聚合模块：通过聚合不同工作节点的参数来生成一个全局模型。

2.2 联邦学习

Federated Learning

一种机器学习技术，利用存储在分散的设备或服务器上的本地数据来训练模型，而不用交换数据。使得多个参与者能够在不共享数据的情况下构建一个通用的、健壮的机器学习模型。解决诸如数据隐私、数据安全、数据访问权限和对异构数据的访问等关键问题。

数据呈现：用矩阵来呈现数据D；每一行表示一个数据样本，每一列表示一个特征

分类：

水平（样本联合学习）

参与者的数据集具有重合的数据特征，但是拥有的数据样本不同。

例如：一家银行在上海和深圳的分公司

垂直（特征联合学习）

参与者的数据集具有重合的样本，但是拥有的数据特征不同。

例如：相同区域的两个不同机构

迁移（迁移联邦学习）

参与者的数据样本和特征都很少重叠。

例如：不同区域的两家不同公司

3 大数据可视化

3.1 图可视化

节点连接图：

直接反映网络关系
能够表示图的整体结构、集群和路径
不太适合稠密图（尤其是关系密集型）

图的简化：

边绑定

邻接矩阵：适合稠密图；可视化结果相对抽象，不能追踪路径

GMap ：用平面来表示对象，平面的连通性表示了物体之间关系的一种“映射”

3.2 高维数据

由多重属性的数据

平行坐标轴

①背景为N个平行坐标轴，每条线表示一个属性。②高维空间中的一个点用N个平行坐标轴上的多段线表示。③第K个坐标轴上的位置表示该店在第K维中的值。

散点图矩阵

①使用二维散点图来表示每个维度对之间的关系。②直接显示了这两个维度的相关性。散点图的数量与数据维度的平方成正比。

降维

使用线性变换或非线性变换把高维数据投影到低维空间。

常用降维方法：

1.主成分分析(Principal Component Analysis,PCA)：仅适用于数值型数据

2.线性判别分析（Latent Dirichlet Allocation,LDA）

3.多维定标（Multidimensional Scaling,MDS）

4.因子分析（Factor Analysis,FA）

3.3 时空数据

有地理位置和时间戳的数据。

3.4 文本可视化

可视化显示文本中的语义特征（词频、逻辑结构、主题聚类、动态演化规律）

词云
语义结构可视化
文本动态可视化

3.5 交互式可视化

视觉分析是一种科学技术，通过交互式视觉界面帮助用户分析和推理大规模复杂数据集。

连个主要组成部分：表示和交互。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四章分析和可视化

分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等，分为预测和描述两大类。预测：根据其他属性的值预测特定属性的值，在数据上进行归纳以做出预测。描述：导出和概括数据的潜在模式（相关，趋势，聚类），刻画目标数据的一般性质。
复制链接

扫一扫

专栏目录

程序小猴_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

158万+: 周排名

30万+: 总排名

441: 访问

: 等级

86: 积分

4: 粉丝

6: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

第六章大数据隐私：匿名数据技术
CSDN-Ada助手: 恭喜博主撰写了第六篇博客，标题为“大数据隐私：匿名数据技术”。这篇博客的内容非常有意义，探讨了大数据隐私保护中的匿名数据技术。我对你持续创作的热情深感钦佩。在下一步的创作中，或许可以进一步探索匿名数据技术的实际应用案例，以及对隐私保护的影响。期待你的下一篇博客！
第一章引论
解: 找虫：第三大点“科学研究第四范式” 第是不是改成的
第二章数据获取
CSDN-Ada助手: 非常棒的博客！你在这篇博文中详细介绍了数据获取的重要性。我鼓励你继续创作，因为你的文章能够帮助读者更好地理解这个主题。除了你在标题和摘要中提到的内容，还有一些与数据获取相关的知识和技能可以进一步拓展。例如，你可以探讨数据爬取的技术和工具，如网络爬虫和数据挖掘算法。此外，你还可以介绍如何处理大规模数据集，包括数据清洗、数据存储和数据分析等方面的技巧。希望你在未来的博文中能够扩展这些知识，并且将它们与数据获取的重要性结合起来。再次感谢你的分享，期待看到更多精彩的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。