IBM“大数据云计算”系列讲座笔记

最新推荐文章于 2022-05-21 23:56:56 发布

zaibianchange

最新推荐文章于 2022-05-21 23:56:56 发布

阅读量743

点赞数 2

分类专栏：学习笔记大数据文章标签：云计算大数据学习笔记 ibm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zaibianchange/article/details/53708652

版权

学习笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

第一次：

主题：IBM云计算-Bluemix介绍

内容：IBM bluemix优势架构。云计算的三种服务模式：IaaS、PaaS和SaaS。示例讲解bluemix的虚拟机、runtime、部分服务。基于bluemix的几个实际案例讲解。

1.云计算的三种服务模式：IaaS，PaaS和SaaS

谁能举个通俗易懂的例子告诉我IAAS，SAAS，PAAS的区别？

2.Bluemix介绍

4.IBM认知&认知计算：IBM cognitive & cognitive-computing

包含四个方面：Natural Language Processing、Machine Learning、Video/Image/Audio Analytics、Text Analytics

四个特点：Analytics、Risk Management、Connect、Information Management

5.DevOps wiki 我眼中的DevOps DevOps工具

第二次：

主题：IBM大数据分析算法简介

内容简介：介绍IBM大数据分析算法家族。大数据分析是针对于大数据关键的应用，IBM有一系列的针对于大数据的分析算法来解决用户的商业问题，针对于这些算法族进行详细的介绍，让听众系统的了解数据分析算法可以解决的商业问题。

1.Big Data -4V 大数据的四个特点：

Volume: Data at Rest

Velocity: Data in Motion

Variety: Data in Many Forms

Veracity: Data in Doubt

2.IBM Big Data Algorithms - by Category

Data Exploration、Data Preparation、Regressioin & Classification、Frequent Pattern Mining、Clustering、Forecasting、Survival Analysis、Spatial Temporal、Ensemble Methods

3.IBM Big Data Offering

DSX(Data Science Exprience)、Waston Analytic、SPSS Statistics、SPSS Modeler

第三次：

主题：大数据分析之Spark

内容简介：介绍大数据分析的基本概念及应用，并详细介绍Spark的概念和架构，让学生可以了解大数据分析的发展方向。

1.大数据相关技术-存储技术

结构化数据：海量数据的查询、统计、更新等操作效率低；

非结构化数据：云图片、视频、WORD、PDF、PPT等文件存储。不利于检索、查询和存储。

半结构化数据：转换为结构化存储、按照非结构化存储

数据采集：ETL工具

基础架构支持：关系数据库，分布式文件系统（Distributed File System, DFS）

2.分析技术流程

业务理解、数据理解、数据准备、数据建模、评估、发布。

其中业务理解、数据处理，数据准备（理解、处理、分析）最耗时。

3.解决方案

MapReduce技术——>Hadoop——>Spark框架

MapReduce是Hadoop（用Java实现）的基础，Spark是Hadoop的改进。

MapReduce的流程：输入文件—>Map阶段（映射）—>中间阶段—>Reduce阶段（化简）—>输出文件

4.与 Hadoop 对比，如何看待 Spark 技术？ Fr.知乎

5.Spark是什么？

Apache Spark 是一个快速的通用的大数据处理引擎。

Spark是一个开源的集群计算框架。

特点：

大数据：可以高效率处理数以PB计的海量数据；

快速：比Mapreduce Hadoop基于内存的计算块100倍；

通用：涵盖了众多的大数据处理组件库，结构化数据查询，实时数据处理，机器学习，图计算；

集群计算：数千个集群节点，有记录的最大集群有8000个节点。

6.为什么要使用Spark？

性能：基于内存的构架极大减小了磁盘IO；通用任务上20-100X速度的提升；

高效：精简且表达力强大的语法；统一的编程模型；能用主流语言编程Java、Python、Scala、R等；新工具减少使用障碍（SQL for analysts）

利用已有资产：同已有Hadoop生态系统很好的结合；

持续改进：大量社区工作者持续对Spark组件进行快速的更新。

7.常见流式数据处理框架：Spark Stream、Apache Spark 、Apache Samza、IBM InfoSphere Streams

8.通常有两种数据模块：DataFrames/RDD。

Spark中存在RDD弹性分布式数据集。

如何理解spark中RDD和DataFrame的结构？

9.Spark有四个模块：

（1）Spark SQL

（2）Spark Streaming 流式计算（实时），采用分时间窗来处理

（3）机器学习算法：分为监督式学习算法和非监督式学习算法，有两种学习库Spark MLlib和ML。

（4）图形计算：Spark GraphX

10.PageRank计算模型。

PageRank 算法的复杂程度怎么样？

PageRank算法简介及Map-Reduce实现

第四次：

主题：基于OpenStack的云计算平台

内容简介：基于OpenStack来构造云计算平台基础设施的原理和技术。讲座目的是引导学生思考传统计算模式向云计算模式的转变，认识云计算平台的主要架构部件和工作原理。讲座结合业界最为关注的OpenStack开源软件，讲解计算、存储和网络的虚拟化与管理。讲座结合实际生产环境中的部署经验，分析云计算目前仍然需要解决的技术问题，并展望未来云计算平台的发展方向。

1.什么是OpenStack

OpenStack is a cloud operating system that controls large pools of compute, storage, and networking resources throughout a datacenter.

OpenStack是Iaas软件，让任何人都可以自行建立和提供云端运算服务。

OpenStack百度百科

告诉你一个真实的 OpenStack：都谁在用，用来干什么？

2.hypervisors产生虚拟机。

3.云计算领域最具竞争力的是运维。

Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分？

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
IBM“大数据云计算”系列讲座笔记

第一次：主题：IBM云计算-Bluemix介绍内容：IBM bluemix优势架构。云计算的三种服务模式：IaaS、PaaS和SaaS。示例讲解bluemix的虚拟机、runtime、部分服务。基于bluemix的几个实际案例讲解。1.云计算的三种服务模式：IaaS，PaaS和SaaS 谁能举个通俗易懂的例子告诉我IAAS，SAAS，PAAS的区别？2.Bluemix介绍
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。