大数据算法点滴一

本文概述了大数据算法的设计与分析,强调了大数据的4V特性,提出了从问题到解决方案的步骤,包括时间亚线性算法、外存算法、并行算法和众包算法。重点介绍了亚线性算法,特别是亚线性时间近似算法和数据流算法,并通过水库抽样作为实例进行了说明。
摘要由CSDN通过智能技术生成

大数据算法笔记 FROM 哈尔滨工业大学 大数据算法设计与分析 王宏志

一、大数据问题

1Byte=8bit,1KB=1024Bytes,1MB=1025KB,GB、TB、PB、EB、ZB、YB、BB、NB、DB

4V特性:volume、variety、velocity、value,补充:对于web大数据还有virtuality

求解步骤:问题--可计算否--计算可行否(资源、时间、数据量)--算法设计与分析--语言实现算法--软件系统

难点侧重:

访问全部数据时间过长——读取部分数据——时间亚线性算法

数据难于放入内存计算——将数据存储在磁盘上,仅基于少量数据进行计算——外存算法,空间亚线性算法

计算需要全部数据,单个计算机难以保存——并行处理——并行算法

计算机能力或者知识不足——人类专家指导——众包算法

大数据算法设计技术:精确算法设计方法,并行算法,近似算法,随机算法,在线算法/数据流算法,外存算法,面向新型体系结构的算法,现代优化算法

大数据算法分析:分析时间空间复杂性,IO复杂性,结果质量(近似比、competitive ratio)比如泛化能力,通讯复杂性


二、亚线性算法

定义:时间、空间、IO、通讯、能量等消耗是o(输入规模),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值