大数据基础一

大数据的前世今生

一个文件系统hdfs,一个计算框架MapReduce,一个数据库系统
大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到 Hadoop 平台的 Sqoop;针对大规模日志进行分布式收集、聚合和传输的 Flume;MapReduce 工作流调度引擎 Oozie 等

1.论文奠定技术发展基石;
2.业务催生技术不断突破;
3.效率倒逼技术迭代更新;
只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。

大数据的发展史:从搜索到人工智能

  • 搜索引擎》数据仓库》数据挖掘》机器学习
  • 未来的软件开发不再是需求-分析-设计-实现的确定性过程,而是定义问题和目标,收集数据,提供数据,再由神经网络不断探索最优解的非确定性过程
  • 上一代互联网革命是电脑时代,是人找物,即搜索。下一代互联网革命是移动时代,是物找人,即推荐。必然离不开大数据与人工智能相结合。所以任何时候学习都不算晚
  • 推荐系统、广告系统、估价系统、风控系统都是现在广泛使用了机器学习的
  • 大数据其实也有很多细分领域,大数据计算框架开发,大数据集成平台开发,大数据分析,机器学习应用,各种领域对语音要求各不相同

大数据应用领域:数据驱动一切

  • 大数据在医疗领域的应用
  • 大数据在教育领域的应用
  • 大数据在社交媒体领域的应用
  • 大数据在金融领域的应用
  • 大数据在新零售领域的应用
  • 大数据在交通领域的应用
  • Youtube根据用户查看广告时长(支持直接关闭)评估广告投放效果,及时调整广告内容,让商家广告效益最大化。
  • 利用大数据和机器学习,发掘数据中的规律,进而对当前的事情做出预测和判断,使机器表现出智能的特性,正变得越来越普及。
  • 大数据主要来自企业自身所产生,还有一些数据来自互联网,通过网络爬虫可以获取;再有就是公共数据,比如气象数据等。所有这些数据汇聚在一起,计算其内在的关系,可以发现很多肉眼和思维无法得到的知识。然后进一步计算其内在的模型,可以使系统获得智能的特性。当系统具备智能的特性,可以使机器对当前的事情做出预测和判断。但是,这些数据通常非常巨大,存储、计算、应用都需要一套不同以往的技术方案。

移动计算比移动数据更划算

大数据技术和传统的软件开发技术在架构思路上有很大不同,大数据技术更为关注数据,所以相关的架构设计也围绕数据展开,如何存储、计算、传输大规模的数据是要考虑的核心要素。

既然数据是庞大的,而程序要比数据小得多,将数据输入给程序是不划算的,那么就反其道而行之,将程序分发到数据所在的地方进行计算,也就是所谓的移动计算比移动数据更划算。

现在我们来看,移动计算程序到数据所在位置进行计算是如何实现的呢?

  1. 将待处理的大规模数据存储在服务器集群的所有服务器上,主要使用 HDFS 分布式文件存储系统,将文件分成很多块(Block),以块为单位存储在集群的服务器上。

  2. 大数据引擎根据集群里不同服务器的计算能力,在每台服务器上启动若干分布式任务执行进程,这些进程会等待给它们分配执行任务。

  3. 使用大数据计算框架支持的编程模型进行编程,比如 Hadoop 的 MapReduce 编程模型,或者 Spark 的 RDD 编程模型。应用程序编写好以后,将其打包,MapReduce 和 Spark 都是在 JVM 环境中运行,所以打包出来的是一个 Java 的 JAR 包。

  4. 用 Hadoop 或者 Spark 的启动命令执行这个应用程序的 JAR 包,首先执行引擎会解析程序要处理的数据输入路径,根据输入数据量的大小,将数据分成若干片(Split),每一个数据片都分配给一个任务执行进程去处理。

  5. 任务执行进程收到分配的任务后,检查自己是否有任务对应的程序包,如果没有就去下载程序包,下载以后通过反射的方式加载程序。走到这里,最重要的一步,也就是移动计算就完成了。

  6. 加载程序后,任务执行进程根据分配的数据片的文件地址和数据在文件内的偏移量读取数据,并把数据输入给应用程序相应的方法去执行,从而实现在分布式服务器集群中移动计算程序,对大规模数据进行并行处理的计算目标。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值