关于大数据

事先声明:本人对于任何一项技术都保持热爱,不限于编程语言与艺术
在对接下来要讨论的大数据这门工程来说 有几点想给大家提的意见

  1. 在如今这个时代 大数据已成为时代主流 ,通过现象分析 本质 研究 数据的产生与处理 将其可视化便是大数据 处理的真谛
    以MOOCs(MassiveOpenOnlineCourses)为代表的新兴在线教学模式的特点就是让任何人在任何时间都可以学到任何知识,这必然会改变传统的以传授单一课本知识为基础的教学模式
  2. HADOOP如今的地位 ,生态的绝对完美?
    我们再回头看看Apache Hadoop的两大组成部分:Hadoop分布式文件系统和Hadoop,确实就是GFS和GMR的翻版。虽然Hadoop正在发展成为一个无所不包的数据管理和处理生态系统,但是在这个生态系统的核心,依然是MapReduce系统。所有的数据和应用最终都将降解为Map和Reduce的工作。
    有趣的事情是,GMR已经不再占据Google软件堆栈中的显赫位置。当企业被Hadoop解决方案锁定到MapReduce上时,Google却已经准备淘汰MapReduce技术。虽然Apache项目和Hadoop商业发行版本试图通过HBase、Hive和下一代MapReduce(亦即YARN)弥补Hadoop的短板。但笔者认为只有用全新的,非MapReduce架构的技术替代Hadoop内核(HDFS和Zookeeper)才能与谷歌的技术抗衡。
    增量索引过滤器(Percolator for incremental indexing)和频繁变化数据集分析。
    Hadoop是一台大型“机器”,当启动并全速运转时处理数据的性能惊人,你唯一需要操心的就是硬盘的传输速度跟不上。但是每次你准备启动分析数据时,都需要把所有的数据都过一遍,当数据集越来越庞大时,这个问题将导致分析时间无限延长。
    就比如说: 利用hive查询速率奇慢 , 其中根本性就是Mapreduce的底层是每次都重新过滤

总而言之,Hadoop是一个可以在普通通用硬件集群上进行大规模数据处理的优秀工具。但是如果你希望处理动态数据集、点对点分析或者图数据结构,那么Google已经为我们展示了大大优于MapReduce范型的技术选择。毫无疑问,Percolator、Dremel和Pregel将成为大数据的新“三巨头”,正如Google的老“三巨头”:GFS、GMR和BigTable所做的那样。

3.Spark将成为主流?
其实大部分都是知其然不知所以然
Hadoop的改进基本停留在代码层次,也就是修修补补的事情,这就导致了Hadoop现在具有深度的“技术债务”,负载累累;
Spark是可以革命Hadoop的目前替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。不得不提的是Spark的“One stack to rule them all”的特性,Spark的特点之一就是用一个技术堆栈解决云计算大数据中流处理、图技术、机器学习、交互式查询、误差查询等所有的问题。只需要一个技术团队通过Spark就可以搞定一切问题,而如果基于Hadoop就需要分别构建实时流处理团队、数据统计分析团队、数据挖掘团队等,而且这些团队之间无论是代码还是经验都不可相互借鉴,会形成巨大的成本,而使用Spark就不存在这个问题。

  1. BI 即将进化
    现代的 BI 工具,几乎都是可视化工具,而之所以需要这么强的可视化,是因为人类无法直接理解数据,给人 0 和 1 是无法直接解读和理解的。而图形可以帮助人类快速理解,某个指标是涨了还是跌了,某个因子比另外一个要影响更大,哪个结果指标是由哪几个过程指标分解等等。优秀的可视化能力,是帮助分析师高效完成分析、总结和探索的的利器。

但今天,当 AI 可以直接读取和分析数据的时候,就不需要前置一个可视化工具了。直接给 AI 数据 0 和 1,即可让 AI 快速给出分析结论:是涨了跌了?背后是为什么?什么因子影响的?影响有多大?还有什么原因……AI 产生的效率提升,是十倍到百倍以上的。相当于 AI 把以前分析师需要做的大部分工作都做了,人类只需要进行选择、判断和稍微修正就行。这是 AI 时代对数据和分析行业带来巨大变化的第一点。

自动化行业有一个非常好的比喻:不要让机器人打算盘。都已经有 AI 了,人类可以问 AI 要结果和建议,而不是依然让 AI 去做低效的工作。
举个最简单的例子:在对冗杂的长篇文章里 会动的图片和文字会更加调动理解的效率

  • 11
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值