大数据算法笔记 FROM 哈尔滨工业大学 大数据算法设计与分析 王宏志
一、大数据问题
1Byte=8bit,1KB=1024Bytes,1MB=1025KB,GB、TB、PB、EB、ZB、YB、BB、NB、DB
4V特性:volume、variety、velocity、value,补充:对于web大数据还有virtuality
求解步骤:问题--可计算否--计算可行否(资源、时间、数据量)--算法设计与分析--语言实现算法--软件系统
难点侧重:
访问全部数据时间过长——读取部分数据——时间亚线性算法
数据难于放入内存计算——将数据存储在磁盘上,仅基于少量数据进行计算——外存算法,空间亚线性算法
计算需要全部数据,单个计算机难以保存——并行处理——并行算法
计算机能力或者知识不足——人类专家指导——众包算法
大数据算法设计技术:精确算法设计方法,并行算法,近似算法,随机算法,在线算法/数据流算法,外存算法,面向新型体系结构的算法,现代优化算法
大数据算法分析:分析时间空间复杂性,IO复杂性,结果质量(近似比、competitive ratio)比如泛化能力,通讯复杂性
二、亚线性算法
定义:时间、空间、IO、通讯、能量等消耗是o(输入规模),