大数据算法
克莉丝汀娜
此时一名自称平民的玩家路过
展开
-
大数据算法学习笔记(1):定义与特点
大数据定义:至今无公认。1、所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理为人类所能解读的信息。2、不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。3、需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。特点:1、多样性、复杂性(Variety):多源异构。多个信息源,构造方式多样。原创 2015-06-28 10:07:51 · 868 阅读 · 0 评论 -
大数据算法学习笔记(2):大数据算法
大数据上问题求解问题的过程:1、可计算否?(图灵机模型)2、能行可计算否?(利用现有的资源在时间约束内完成)3、算法设计与分析4、用计算机语言实现算法。5、构建一个面向大数据的软件系统大数据算法:定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。与传统算法区别:可以不是精确算法、内存算法、串行算法、仅在电子计算原创 2015-06-28 10:34:11 · 1409 阅读 · 0 评论 -
大数据算法学习笔记(3):亚线性算法概述
定义:线性时间、空间、IO、通讯、能量等消耗是o(输入规模)亚线性时间算法:亚线性时间近似算法、性质检测算法。亚线性空间算法:数据流算法亚线性时间问题:求图中节点的平均度。能否在不访问所有顶点的情况下完成此任务。亚线性空间问题:源源不断的数据流,只扫描一次,如何求中位数。原创 2015-06-29 19:46:03 · 4719 阅读 · 0 评论 -
大数据算法学习笔记(五):生成树权重
1、问题:无向简单图,求最小生成树的权重。精确解:prime、kruskal2、亚线性算法基本思想:用特定子图联通分量的数量估计MST的权重。假设某个无向图中所有边的权重都是1或者2,求MST的权重。则其MST的权重=N1+N2(N1:MST中权重至少为i的边的数量)显然N1=n-1,n为顶点数。而N2为权重为1的边构成的导出子图的联通分量个数-1,即把MST中边权原创 2015-08-16 19:43:33 · 7021 阅读 · 0 评论 -
大数据算法学习笔记(四):数据流模型
一、数据流模型:1、数据只能顺序扫描1次或几次。(超过O(n)的算法不可行)2、能够使用的内存是有限的。(空间亚线性)3、希望通过维护一个内存结果来给出相关性质的一个有效估计。二、基础知识:1、频繁元素:数据流中同一个元素可以出现多次,出现最频繁的元素。n:不同元素个数。m:数据流中元素个数。2、zipf原则:典型的概率分布是高度倾斜的。只有少数原创 2015-08-16 12:53:52 · 2729 阅读 · 2 评论 -
大数据算法学习笔记(六):数组有序性判定
问题:N个数的数组,x1,x2,……,xn,判定该数组是否有序。定义ε远离:必须删除大于εn个元素才能保证剩下的元素有序。亚线性算法:for k=1 to 2/ε do 选择数组中第i个元素xi 用xi在数组中做二分查找 if ixj then return falsereturn true时间复杂度:O(1/ε*logn)原创 2015-08-17 10:06:58 · 1922 阅读 · 0 评论 -
大数据算法学习笔记(七):外存算法
当数据量巨大时,传统随机存储模型无法适用。一、存储结构标准计算理论模型:1、无限内存2、统一访问代价3、模型简单分层存储:1、存储量得到较大提升,较慢的层次远离CPU2、以块为单位的数据移动可扩展性问题:大多数程序在RAM模型中运行,操作系统按需访问块。但如果程序分散地访问磁盘数据,即便是好的操作系统也无法利用数据块存取优势。原创 2015-08-17 21:23:46 · 2745 阅读 · 0 评论