深唐杯大数据组命题范围

深唐杯大数据组命题范围

1.1 大数据概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.2 大数据前世今生(大数据历史)

大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年,Doug Cutting将这些大数据相关的功能从Nutch中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

1.3 大数据特性

具有以下五大特征——4V+1O的数据才称之为大数据,即:

  • 数据量大Volume
    第一个特征是:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
  • 类型繁多Variety
    第二个特征是:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
  • 价值密度低Value
    第三个特征是:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
  • 速度快时效高Velocity
    第四个特征是:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
  • 数据是在线的Online
    数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大

1.4 大数据与nosql

大数据量级的变化,数据类型的多元化存储以及数据分析处理实时性要求,这些都是常规的关系型数据库无法满足的,因此也促使了NoSql数据库的出现

NoSQL 即 Not Only SQL,意为“不仅仅是 SQL”,这项技术正在掀起一场全新的数据库革命性运动。

NoSQL 数据库具有以下几个优点:
1.易扩展

  • NoSQL 数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。无形之间,在架构的层面上带来了可扩展的能力。

2.大数据量,高性能

  • NoSQL 数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。一般 MySQL 使用 Query Cache,每次表一更新 Cache 就失效,它是一种大粒度的 Cache,在针对 web2.0 的交互频繁的应用,Cache 性能不高。而 NoSQL 的 Cache 是记录级的,是一种细粒度的 Cache,所以 NoSQL 在这个层面上来说性能就高很多了。

3.灵活的数据模型

  • NoSQL 无须事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的 web2.0 时代尤其明显。

4.高可用

  • NoSQL 在不太影响性能的情况,就可以方便地实现高可用的架构。比如 Cassandra, HBase 模型,通过复制模型也能实现高可用。

1.5 大数据与云计算

【云计算与大数据】知识点总结.

1.6 大数据与人工智能

【云计算、大数据和人工智能】.

1.7 大数据与机器学习

【 大数据与机器学习】.

1.8 大数据与数据仓库

【 浅谈数据仓库和大数据】.

1.9 Hadoop由来

【hadoop的起源】

1.10 HDFS基本原理

【 HDFS基本原理】.

1.11 MapReduce核心思想

【 MapReduce核心思想】.

1.12 YARN在Hadoop中的角色定位

Yarn是集群的资源管理系统,在Hadoop集群(确切的说是Hadoop上的任务)中起到资源(内存、CPU)分配的作用。任何一个分布式程序执行时都需要从系统申请资源,Yarn就是充当资源的协调者的角色。
详情参看: YARN在Hadoop中的角色定位.

1.13 YARN基本架构

YARN基本架构.

1.14 HBase基本概念

HBase基本概念.

1.15 Hadoop生态成员与角色定位

Hadoop生态成员与角色定位.

1.16 发行版Hadoop主要供应商

Hadoop入门扫盲:hadoop发行版介绍与选择.
Hadoop各商业发行版之比较.

2.1 Linux基础命令

Linux基础命令.

2.2 Linux shell原理

Linux shell原理.

2.3 Linux进程管理

Linux进程管理

2.4 Linux无密登录

2.5 Linux程序安装与运行

2.6 Linux Linux文件操作(增删改查)

2.7 Linux shell编程

2.8 Hadoop 安装

2.9 HDFS分布式部署

2.10 HDFS高可用环境搭建

2.11 HDFS配置文件

2.12 MapReduce配置文件

2.13 MySql安装与配置

2.14 Hive环境搭建

2.15 YARN分布式部署

2.16管理HBase分布式部署与管理

2.17 Spark环境搭建

2.18 Kafka安装配置

2.19 Flume安装配置

2.20 sqoop安装配置

2.21 python安装配置

3.1 数据清洗概念

3.2 Flume基本概念

3.3 Flume事件概念与原理

3.4 Flume配置文件

3.5 Kafka基本概念

3.6 Kafka内部逻辑组成

3.7 Kafka配置文件

3.8 HDFS优缺点

3.9 HDFS文件读写流程

3.10 HDFS文件副本机制

3.11 HDFS NN运行原理

3.12 HDFS NN 高可用解决方案

3.13 HDFS 高可用机制

3.14 Sqoop基本概念

3.15 Sqoop import/export

3.16 HBase数据模型

3.17 HBase运行架构

3.18 HBase Region原理

3.19 HBase RegionServer原理及分类

3.20 HBase HMaster负责事项

3.21 HBase数据写入流程

3.22 HBase数据读取流程

3.23 MapReduce基础编程

3.24 Scala基础语法

3.25 Spark基础编程

4.1 数据挖掘概念与特性

4.2 数据量级单位

最小的基本单位是bit,按顺序给出所有单位:
bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

单位转换:
1Byte=8bit 1K = 1024bit 1MB = 1024K 1G = 1024M

1T = 1024G 1P = 1024T 1E = 1024P 1Z = 1024E

1Y = 1024Z 1B = 1024Y 1N = 1024B 1D = 1024N

4.3 常用分类算法及原理

4.4 常用聚类算法及原理

4.5 降维算法及原理

4.6 关联算法及原理

4.7 推荐算法及原理

4.8 MapReduce运行原理

4.9 MapReduce优缺点

4.10 MapReduce任务异常处理

4.11 Hive原理与本质

4.12 Hive数据库概念

4.13 Hive sql语法与特性

4.14 Hive表管理

4.15 Hive数据操作

4.16 Hive sql视图

链接: hive 视图特点及使用.

4.17 Hive UDF语法与规则

4.18 YARN ResourceManager管理机制

4.19 YARN NodeManager决策机制

4.20 YARN中application运行过程

4.21 YARN Container概念

4.22 Spark RDD定义与特性

4.23 Spark DataSet定义及内部机制

4.24 Spark DAG机制与原理

4.25 Spark Streaming概念及特性

4.26 Spark作业执行过程

4.27 Spark异常处理

4.28 Spark运行模式

5.1 HTML语法与标签

HTML语法与标签.

5.2 css语法规则

css语法规则.

5.3网页布局方式

网页布局方式.

5.4页面自适应与响应式

页面自适应与响应式.

5.5 JavaScript基础语法

JavaScript基础语法.

5.6 ECharts基本api

ECharts基本api.

5.7 Ajax基本原理

Ajax基本原理.

5.8 Ajax实现与后台服务通信

Ajax基本原理.

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值