非独立同分布大数据

最新推荐文章于 2024-08-04 15:41:38 发布

banrieen

最新推荐文章于 2024-08-04 15:41:38 发布

阅读量5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/banrieen/article/details/80371241

版权

本文探讨了非独立同分布大数据的挑战及其在有限资源下的应用。内容包括非独立同分布的概念、数据表达、K-Means的局限性以及处理非独立同分布数据的策略，如特征选择、异常检测和推荐系统的应用。同时，强调了统计学与数据科学在处理此类数据时的区别，并触及流数据处理和推荐系统中数据更新和依赖的问题。

摘要由CSDN通过智能技术生成

大数据的应用应该在：有限资源的情况下，快速开展
非独立同分布大数据
数据总是依赖的，分布发生变化=》适应大数据发展趋势
算法，思维
| —–
|–Non-IID 进展
|–概念
|–数据表达
|–离散
|–K-Means
|–图形特征体现
|–统计学，特征选择，异常检测，推荐系统【理解予以，关联】
|—-独立同分布。假设条件简单，存在问题

A. 学习问题：
K-Means 数据可能是不独立的，只能做简单应用，Decision Tree 是不可用的
K-Means 要求数据如 K1，Ki,Kn是同分布，且独立的
现实解决问题面对，=》非独立同分布=》
|–异构型 Heterogeneity【属性，源，结果】 //非特征分布
|–Coupling relationship // 非独立

实现原理：
一、如数据是多行，或多维的；
先基于一维，一行数据做 inter/intra 比较
然后与其他维数据的关系，维度/行之间的关系
最后叠加处理。
二、特征选择，异常，无监督的情况
|–Inter Feature | | Application
| |–Feature Weight
Data Object| [outlier factor] |–Model For |
| |–outlier object detection
|–Intra Feature | |

模型训练或学习
先考

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。