自我总结ing

学习Spark的心得体会

        自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。

        大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。

        大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

        大数据技术的应用有以下几个层面,数据采集,数据存储和管理,数据处理与分析,数据隐私和安全,大数据计算模式:批处理计算,流计算,图计算,查询分析计算.

        我们还学习了如何搭建Hadoop平台(核心能力如下) HDFS、MapReduce、hive数据仓库等

        通过本学期的学习,我知道了什么是Spark,Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它,其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。

        Hadoop 是一种开源框架,它将 Hadoop 分布式文件系统 (HDFS) 用于存储,将 YARN 作为管理由不同应用程序所使用的计算资源的方式,并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中,还会部署不同的执行引擎,如 Spark、Tez 和 Presto。

        Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统,但会在其他存储系统,如 HDFS,或其他热门存储,如 Amazon RedshiftAmazon S3、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎,确保服务和响应的一致性水平。

         在实际的操作中,还是会遇到很多问题,语法的错误,一行里参杂着多行代码,在编程中逻辑不够严谨,逻辑错误代码的不熟悉,英语也要多学习,单词的词汇量也不大,在学习Spark语言的时候也是有狠多的疑惑,但是,没能提起勇气去问老师,自己下来花了比较长的时间才理解,真的是有些许愚蠢,也有很多没有掌握的地方,感觉自己学了,又感觉没有学,总的来说,觉得自己很差劲,成为了自己讨厌的人,又总是在为自己的失找借口,学习是一方面,成长又是一方面,人们总是喜欢被人夸赞自己,却不知道这是一把刺向自己的弱点的剑🗡,其实让自己深陷深渊的不是别人,正是那个弱小的自己;贪婪、放纵、胆怯、放荡,这些不太好的词汇总是围绕在我们身边,我们唯有克服重重困难,才能取得成功,站在成曾经的你,你的面前说:“再见从前的我”!

         这样你能懂得学习,知道自己的为什么而前行。又知道什么而后退或停滞不前。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值