![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据算法
GNG
哥尼斯堡,我的故乡。
展开
-
大数据算法MOOC笔记1:大数据定义、特点、应用
大数据的定义:“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题,由于成因复杂,至今对大数据没有公认的定义。定义一:在What is “Big Data”?一文中把大数据定义为:所涉及的数据量规模巨大,无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。这种定义更强调处理能力。定义二:在《大数据时代》一书中,把原创 2016-10-23 17:26:57 · 1184 阅读 · 0 评论 -
大数据算法MOOC笔记2:大数据算法定义、分析与设计
大数据上求解问题的过程:1、问题是否可计算(图灵机模型) 当拿到一个计算问题,首先应该考虑该问题是否可计算。根据可计算理论,有很多问题计算机是无法计算的。我们今天的电子计算机模型是图灵机模型。在小数据上不可计算的问题,在大数据上肯定也不能计算。计算模型的能力是一样的,只是快慢有区别。2、计算的可行性 大数据上的计算问题与传统计算问题有本质区别。第原创 2016-10-24 22:08:14 · 3521 阅读 · 0 评论 -
MapReduce模型、大数据与数据挖掘、云计算的关系
MapReduce模型、大数据、云计算、数据挖掘的区别1.基于MapReduce的算法是一类非常重要的大数据算法,但大数据算法不仅仅是MapReduce上的算法。2.云计算平台上的算法未必是面向大数据的。同样大数据算法也不全是云上的算法,大数据算法可以是基于单机、手机等低端设备。3.大数据的应用广泛,如数据的分析与挖掘、获取、清洗、查询、可视化等方面。其中数据分析与挖掘的商业价值较原创 2016-10-24 23:16:18 · 1557 阅读 · 0 评论 -
大数据算法MOOC笔记3:水库抽样Reservoir Sampling(蓄水池问题)
知识复习空间亚线性算法:由于大数据算法中涉及到的数据是海量的,数据难以放入内存计算,所以一种常用的处理办法是不对全部数据进行计算,而只向内存里放入小部分数据,仅使用内存中的小部分数据,就可以得到一个有质量保证的结果。数据流算法:是指数据源源不断地到来,根据到来的数据返回相应的部分结果。适用于两种情况:第一、数据量非常大仅能扫描一次时,可以把数据看成数据流,把扫描看成数据到来。第二、数据原创 2016-10-31 19:45:42 · 7948 阅读 · 6 评论