1.1 大数据的定义与特点
大数据的应用
预测,推荐,商业情报分析,科学研究
1.2 大数据算法
问题是否是计算机可解问题
大数据算法的定义
在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法
大数据算法可以不是:
精确算法(保障时间)
内存算法(使用外存)
串行算法(多台机器同时执行)
仅在电子计算机上运行的算法(可以有人参与,众包算法)
- 访问全部数据时间过长
读取部分数据(时间亚线性算法) - 数据难于放入内存计算
将数据存储到磁盘上(外存算法)
仅基于少量数据进行计算(空间亚线性算法) - 单个计算机难以保存全部数据,计算需要整体数据
并行处理(并行算法) - 计算机计算能力不足或知识不足
人来帮忙(众包算法)
1.3 大数据算法设计与分析
算法设计
- 精确算法设计方法(贪心、分治、动态规划,搜索等)
- 并行算法(