大数据算法概述

原创 2015年07月08日 08:29:08

概述

大数据是当今时代的潮流,是后IT时代的一个浪潮,最近学校开了这门mooc,想把所学记录下来,一是分享、二是以后备用

大数据的定义与特点

什么是大数据?

至今没有公认的定义

定义一

所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息

定义二

不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法

定义三

“大数据”是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化力的海量、高增长率和多样化的信息资产

大数据有多大



这个了解一下就行哈,确实挺大==!就是我们人类所不能企及的计算力量,让计算机辅助来完成

大数据的应用范围

到处都是,社交网络的信息统计、科学探测(让计算机去收集信息他就会没完没了的干活,他能收集到多少数据可想而知)、商业数据(一天的资本流动能量估计能赶上好几次卫星爆炸了==!,尤其是女孩子们)、计算机艺术(阿凡达等电影的拍摄加特效会用到大量的数据)

大数据特点


就是这样,我们要考虑如何在尽短的时间内完成对巨大的数据的分析,而这些数据又必须是有价值的才值得我们分析

大数据的应用

应用范围很广,比如一些推荐、一些科学的数据分析、一些预测

大数据算法

大数据上问题求解计算问题的过程



我们这节课的内容集中在算法的设计与分析上

诶,突然发现一个问题

突然发现这个直接把ppt拷贝过来就能讲的很清楚了,我只要略带说明就可以了==!(ppt不让下载,要不就分享出来了)


就是说大数据很高大上,由于数据量之巨大我们就必须采用很多技巧,而一些技巧可以大大简化计算过程但会造成一点误差,我们知道分析这个东西本来就会造成误差,能算出来总比算不出来好,所以,我们会采用这种方法,至于算法的细节会在以后的课程中有讲解


这些算法就是我们要学习的课程

尾声

这就是第一节课的大概内容,我们主要了解了什么是大数据,以及我们日后要学习的课程=w=

每日一句

“我们有两个方法来进行软件设计:一个是让其足够的简单以至于让BUG无法藏身;另一个就是让其足够的复杂,让人找不到BUG。前者更难一些” — C.A.R. Hoare

大数据算法—大数据算法概述

大数据——当下人人津津乐道的话题。然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算、大数据,这些领域的经典案例更是层出不穷。由于认知的有限,就不继续发表拙见了。只是因为很喜欢...
  • qinlumoyan
  • qinlumoyan
  • 2014年11月15日 16:38
  • 1163

大数据算法学习笔记(2):大数据算法

大数据上问题求解问题的过程: 1、可计算否?(图灵机模型) 2、能行可计算否?(利用现有的资源在时间约束内完成) 3、算法设计与分析 4、用计算机语言实现算法。 5、构建一个面向大数据的软件...
  • u014679804
  • u014679804
  • 2015年06月28日 10:34
  • 595

大数据算法面试题

1、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url? 1) 可以估计每个文件安的大小为 50G×6...
  • woainimax
  • woainimax
  • 2017年10月11日 21:25
  • 216

数据算法——大数据算法

现代社会中活动越来越复杂,对信息的需求越来越大,如何对收集的信息加工处理形成人能理解价值信息并对行为指导是大数据算法的意义所在。 大数据有其特点,针对大数据的特点,有对应的解决方案: 大数...
  • qq_35996868
  • qq_35996868
  • 2016年11月27日 18:55
  • 155

大数据算法 十大经典算法

一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了...
  • zlpzlr
  • zlpzlr
  • 2017年12月27日 14:39
  • 234

大数据常见算法题

一般采用分治法!,大文件映射成小文件 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:将大文件分成能够被内...
  • u014686180
  • u014686180
  • 2016年09月02日 16:40
  • 1391

大数据算法

作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题...
  • jsj020122
  • jsj020122
  • 2013年10月08日 15:52
  • 382

我对大数据算法的认知

0x00 前言总结一下自己对大数据算法认知的过程。正文包含两部分:对算法的认知过程和最终笔者对大数据算法的理解。写这篇博客的原因有很多,总的来讲有下面几点: 自己在算法的路上一直懵懵懂懂,现在刚刚有了...
  • zhaodedong
  • zhaodedong
  • 2017年07月31日 20:11
  • 915

大数据算法学习笔记(3):亚线性算法概述

定义: 线性时间、空间、IO、通讯、能量等消耗是o(输入规模) 亚线性时间算法:亚线性时间近似算法、性质检测算法。 亚线性空间算法:数据流算法 亚线性时间问题:求图中节点的平均度。能否在不访问所有...
  • u014679804
  • u014679804
  • 2015年06月29日 19:46
  • 2318

大数据学习笔记之四十一 数据挖掘算法之预测建模的回归模型

预测建模中的回归模型是对连续性目标变量的进行趋势预测
  • xuqiaobo
  • xuqiaobo
  • 2017年02月21日 17:20
  • 572
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据算法概述
举报原因:
原因补充:

(最多只允许输入30个字)