简单了解大数据

一、学习大数据需要的基础
 java SE,EE(SSM)
  90%的大数据框架都是java写的
 MySQL
  SQL on Hadoop
 Linux
  大数据的框架安装在Linux操作系统上

二、需要学什么
 第一方面:大数据离线分析
  一般处理T+1数据
   Hadoop 2.X:(common、HDFS、MapReduce、YARN)
    环境搭建,处理数据的思想
   Hive:
    大数据数据仓库
    通过写SQL对数据进行操作,类似于mysql数据库中的sql
   HBase
    基于HDFS的NOSQL数据库
    面向列的存储
    
   协作框架:
    sqoop(桥梁:HDFS 《==》RDBMS)
    flume:收集日志文件中信息
    
    调度框架anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
   
   扩展前沿框架:
    kylin、impala、ElasticSearch(ES)
    
 第二方面:大数据实时分析
   以spark框架为主
   Scala:OOP + FP
   sparkCore:类比MapReduce
   sparkSQL:类比hive
   sparkStreaming:实时数据处理
   kafka:消息队列
  前沿框架扩展:flink 
   阿里巴巴 blink
 
 第三方面:大数据机器学习(扩展)
   spark MLlib:机器学习库
   pyspark编程:Python和spark的结合
   推荐系统
   python数据分析
   Python机器学习

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值