课程链接:大数据技术基础课程_厦门大学数据库实验室 http://dblab.xmu.edu.cn/post/1089/
课程里介绍了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、Spark以及大数据在互联网、生物医学和物流等各个领域的应用
• 在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术
一,大数据、云计算和物联网的相互关系
答:
云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑
云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间。
大数据关键技术
1. 分布式存储:GFS\HDFS , BigTable\HBase ,NoSQL(键值、列族、图形、文档数据库) ,NewSQL(如:SQL Azure)
2. 分布式处理: MapReduce
云计算关键技术
公有云 ===软件即服务SaaS :由于是计量服务,SaaS 允许出租一个应用程序,并计时收费
混合云 ===平台即服务PaaS :类似IaaS,但是它包括操作系统和围绕特定应用的必需的服务
私有云 ===基础设施即服务IaaS:将基础设施(计算资源和存储)作为服务出租
云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等
物联网关键技术
物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等
发展脉络
IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革
第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业
技术条件已经成熟:
1. 存储设备容量不断增加
2. CPU处理能力大幅提升
3. 网络带宽不断增加 (每秒周转次数,前端总线速率,转移数据量)
大数据发展历程:90年代数据库概念----------->00年代大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧----------->10年代大数据技术得到广泛应用
思维方式方面,大数据完全颠覆了传统的思维方式:
全样而非抽样
效率而非精确
相关而非因果
大数据关键技术
3. 分布式存储:GFS\HDFS , BigTable\HBase ,NoSQL(键值、列族、图形、文档数据库) ,NewSQL(如:SQL Azure)
4. 分布式处理: MapReduce分布式并行编程模型
二,大数据处理架构Hadoop
HDFS:分布式并行编程模型
MapReduce:分布式并行编程模型
HBase : Hadoop上的非关系型的分布式数据库
Zookeeper :提供分布式协调一致性服务
SSH是什么?
SSH 为 Secure Shell 的缩写,是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。
配置SSH的原因:
Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置为名称节点可以无密码登录它们
性能动力
Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型
基本组成
一个基本的Hadoop集群中的节点主要有
NameNode:负责协调集群中的数据存储
DataNode:存储被拆分的数据块
JobTracker