[持续更新]大数据岗位实习日志

最新推荐文章于 2025-05-19 10:06:32 发布

江中洲

最新推荐文章于 2025-05-19 10:06:32 发布

阅读量3.8k

点赞数

分类专栏：大数据实习文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_60823340/article/details/125826791

版权

大数据实习专栏收录该内容

5 篇文章

订阅专栏

入门了解

最近在大数据分析岗位实习,因为尚在入门所以就只能先做一个sqlboy啦,然后慢慢学习一点大数据相关开发的工作.

目录

入门了解

大数据开发与后端的区别

传统的后端java一般是用的spring全家桶,处理的数据量有上限,基于传统的数据库的CRUD与前端查询的接口

CRUD
增加(Create)、检索(Retrieve)、更新(Update)和删除(Delete)

数据库可以抽象为三个部分:
数据接入部分
数据计算部分(数据计算引擎)
结果存储部分

大数据开发需要会什么

说实话因为专业是智能,第一次听说需要懂这些东西

一些组件

Doug Cutting开山鼻祖首创Hadoop
消息队列组件KafKa(乍一听有点像那个作家卡夫卡)
数据存储组件Hadoop HDFS
分布式文件系统的鼻祖
分布式计算引擎Spark
先进的思想
高效的编程模型
完备的软件生态
分布式仓库HIVE
分布式数据库HBASE
分布式搜索引擎Elasticsearch

开源的数据计算引擎

MapReduce、Tez暂时不用考虑
(只是作为OLAP的内置计算引擎)
Strom(只是单一的流式处理没有批处理)
Spark兼容性更好
Flink

大数据入门为什么要先学计算引擎

不需要额外的设施
只需要一个IDE工具引入对应的jar包
地位核心承上启下决定运行效率
上接存储数据的数据源Kfaka、HDFS、Hive
下接结果存储的数据库Hbase、Elasticsearch、Mysql
使用频繁
与其他组件更紧密,可以读文件系统、数据库、消息队列,只要能存储都有对应的读api和写api

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。