（传感器网络年会）李建中：大数据与传感网（大数据计算的挑战与机遇）

最新推荐文章于 2023-03-06 17:16:14 发布

雨梦

最新推荐文章于 2023-03-06 17:16:14 发布

阅读量1w

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yumengkk/article/details/8117569

版权

一、大数据特征

1、数据量大；2、结构复杂；3、数据产生快；4、有用信息比例低；

二、启发示例

1、北京出租车一年产生GPS+监控数据，高达100PB；

2、英国飞机发动机监测系统，飞机每飞行一次产生高达PB的数据；

三、大数据计算空间

1、数据的有效获取，边获取如何边获取“元数据”；

2、数据的传输：如何高效，安全；

3、数据的存储：存储要面向计算，不只是存储；

4、数据的处理和应用：如何挖掘使用数据。

四、启发示例——现有计算资源不能满足大数据需求

1、单台主机——一个1TB的数据集做join，需要49小时；

2、64台集群——一个10TB数据join，依旧需要68小时。

五、新的问题及研究领域

1、在大数据情况下，多项式算法是否可以接受？（必须线性或者亚线性回归）

2、大数据计算的新思维：线性和亚线性计算理念——当不能给出线性算法时，如何处理和设计新的近似方法；

可用的算法：（1）基于压缩的算法；（2）基于抽样的计算；（3）基于主数据的计算；

3、云计算环境下，如何开展大数据计算（如何使用有限的网络流量）

（1）数据计算如何在分布式系统下分配；（2）在低网络流量下的，计算算法。

六、五个具体的领域

1、获取：互联网上的数据获取；物理世界的数据获取（等频抽样是否有效，因为小概率事件才是物理领域所关系的）；分布式，多数据流的集成；新的信号采集方法。

2、传输：大数据实时传输的理论和算法：（1）判定问题（给定目的地和源，在时延t内是否传输完成）。当不能完成时，如何处理数据满足时延；（2）安全传输。（3）可靠，多路径。（4）边传输、边计算。

3、存储：存储与计算的云存储理论：（1）Agent思想，算法向数据传输；（2）大数据的感知存储；

4、大数据可用性问题：数据一致性、精确性、完整定、时效性、同一性。

5、计算：（1）计算机领域做的共性算法（PB级以上数据的结构、半结构化数据处理，OLAP等）；图数据计算的算法（传感器网络边的不确定图，动态图——不确定图）。（2）跨领域数据处理（生物学，天文学，社会学，搞能物理，公共健康，量化金融。。。。。。）

6、认识各类集群的计算能力：处理器（如GPU），集群结构；高速网络；计算机机构（存储计算机）。

7、新的软件计算模型：Map/Reduce模型简单；新的软件工具（比如分布式算分的Debug）；新的分布式软件开发方法学；大数据的Privacy。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。