浅谈大数据的起源和核心思想

今晚听了一波赵强老师的《大数据的起源和核心思想》直播公开课,讲得挺好理解的,以下是课堂上提到的部分内容:

一、什么是大数据?
例子:
1、商品推荐
(1)大量的订单如何存储
(2)大量的订单如何计算

二、大数据的核心问题
1、数据的存储:分布式的文件系统
2、数据的计算:分布式计算

三、大数据的核心思想(Google的三篇论文)
(1)GFS:Google File System(Google的分布式文件系统)
                 ---->HDFS:Hadoop Distributed File System
(*)HDFS的体系架构:
        主节点:NameNode
        从节点:DataNode
        第二名称结点:Secondary
(*)全分布式环境,最少需要3台机器
        分布式文件系统的基本原理
 问题1:硬盘不够大
(*)多几个硬盘
 问题2:硬盘不够安全
(*)数据冗余(同样的数据多存几份)
(*)HDFS:Hadoop Distributed File System(分布式文件系统)默认的数据块冗余度:3
(*)数据库默认:128M
       比如:客户端要上传128M到服务器端,那么只有第一份是客户端上传的,另外两份是从硬盘赋值过来的,因为硬盘间有一个水平复制功能

(2)MapReduce(分布式计算模型):解决大数据的计算问题
               核心思想:先拆分、再合并
               MapReduce中,有一个默认的排序规则
               完整的任务:job=map+reduce
                  MapReduce的输入和输出都是:HDFS
                  MR任务需要运行在容器中:Yarn

(3)BigTable(大表)——NoSQL非关系型数据库


四、大数据的整个学习路线
1、Java 基础:Java SE
2、Hadoop:HDFS、Yarn、MapReduce、HBase、Hive、ZooKeeper等
3、Spark
4、Storm:大数据实时计算引擎
5、Redis:内存NoSQL数据库
6、Spark:Spark Core、Spark SQL、Spark Streaming等
8、Apache Kafka
 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值