自我总结ｉｎｇ

Yushijuj

已于 2022-06-04 19:28:04 修改

阅读量752

点赞数 3

文章标签： big data hadoop spark

于 2022-05-23 23:05:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cittb/article/details/124937061

版权

学习Spark的心得体会

自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。

大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。

大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的一系列数据处理和分析技术。

大数据技术的应用有以下几个层面,数据采集,数据存储和管理,数据处理与分析,数据隐私和安全,大数据计算模式:批处理计算,流计算,图计算,查询分析计算.

我们还学习了如何搭建Hadoop平台(核心能力如下) HDFS、MapReduce、hive数据仓库等

通过本学期的学习，我知道了什么是Spark，Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它，其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。

Hadoop 是一种开源框架，它将 Hadoop 分布式文件系统 (HDFS) 用于存储，将 YARN 作为管理由不同应用程序所使用的计算资源的方式，并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中，还会部署不同的执行引擎，如 Spark、Tez 和 Presto。

Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统，但会在其他存储系统，如 HDFS，或其他热门存储，如 Amazon Redshift、Amazon S3、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎，确保服务和响应的一致性水平。

在实际的操作中，还是会遇到很多问题，语法的错误，一行里参杂着多行代码，在编程中逻辑不够严谨，逻辑错误代码的不熟悉，英语也要多学习，单词的词汇量也不大，在学习Spark语言的时候也是有狠多的疑惑，但是，没能提起勇气去问老师，自己下来花了比较长的时间才理解，真的是有些许愚蠢，也有很多没有掌握的地方，感觉自己学了，又感觉没有学，总的来说，觉得自己很差劲，成为了自己讨厌的人，又总是在为自己的失找借口，学习是一方面，成长又是一方面，人们总是喜欢被人夸赞自己，却不知道这是一把刺向自己的弱点的剑🗡，其实让自己深陷深渊的不是别人，正是那个弱小的自己；贪婪、放纵、胆怯、放荡，这些不太好的词汇总是围绕在我们身边，我们唯有克服重重困难，才能取得成功，站在成曾经的你，你的面前说：“再见从前的我”！

这样你能懂得学习，知道自己的为什么而前行。又知道什么而后退或停滞不前。

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
自我总结ｉｎｇ

学习Spark的心得体会自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的
复制链接

扫一扫

Yushijuj CSDN认证博客专家 CSDN认证企业博客

码龄3年

21: 原创

51万+: 周排名

215万+: 总排名

1万+: 访问

: 等级

249: 积分

459: 粉丝

14: 获赞

6: 评论

35: 收藏

私信

关注

热门文章

最新评论

自我总结ｉｎｇ
jiayinana: 最后说得很好，我们总要经历才会成长！
期末总结——Spark
jiayinana: 加油，会越来越好的
Spring Boot +Echarts 组合图表演示
qq_42390476: 您好能提供一下源码学习吗？EQ和JQ的脚本怎么导入
Hadoop—在私有云上创建与配置虚拟机
泰山AI: 学习了，文章写的很不错，感谢您的分享，让我受益良多！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。