[持续更新]大数据岗位实习日志

入门了解

最近在大数据分析岗位实习,因为尚在入门所以就只能先做一个sqlboy啦,然后慢慢学习一点大数据相关开发的工作.

大数据开发与后端的区别

传统的后端java一般是用的spring全家桶,处理的数据量有上限,基于传统的数据库的CRUD与前端查询的接口

CRUD
增加(Create)、检索(Retrieve)、更新(Update)和删除(Delete)

数据库可以抽象为三个部分:
数据接入部分
数据计算部分(数据计算引擎)
结果存储部分

大数据开发需要会什么

说实话因为专业是智能,第一次听说需要懂这些东西

一些组件
  • Doug Cutting开山鼻祖首创Hadoop
  • 消息队列组件KafKa(乍一听有点像那个作家卡夫卡)
  • 数据存储组件Hadoop HDFS
    分布式文件系统的鼻祖
  • 分布式计算引擎Spark
    先进的思想
    高效的编程模型
    完备的软件生态
  • 分布式仓库HIVE
  • 分布式数据库HBASE
  • 分布式搜索引擎Elasticsearch

开源的数据计算引擎

  • MapReduce、Tez暂时不用考虑
    (只是作为OLAP的内置计算引擎)
  • Strom(只是单一的流式处理没有批处理)
  • Spark兼容性更好
  • Flink

大数据入门为什么要先学计算引擎

  • 不需要额外的设施
    只需要一个IDE工具引入对应的jar包
  • 地位核心承上启下决定运行效率
    上接存储数据的数据源Kfaka、HDFS、Hive
    下接结果存储的数据库Hbase、Elasticsearch、Mysql
  • 使用频繁
  • 与其他组件更紧密,可以读文件系统、数据库、消息队列,只要能存储都有对应的读api和写api
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值