IBM“大数据云计算”系列讲座笔记

第一次:

主题:IBM云计算-Bluemix介绍

内容:IBM bluemix优势架构。云计算的三种服务模式:IaaSPaaSSaaS。示例讲解bluemix的虚拟机、runtime、部分服务。基于bluemix的几个实际案例讲解。

1.云计算的三种服务模式:IaaS,PaaS和SaaS

   谁能举个通俗易懂的例子告诉我IAAS,SAAS,PAAS的区别?

2.Bluemix介绍

3.IBM WASTON

4.IBM认知&认知计算:IBM  cognitive & cognitive-computing 

  包含四个方面:Natural Language Processing、Machine Learning、Video/Image/Audio Analytics、Text Analytics

  四个特点:Analytics、Risk Management、Connect、Information Management

5.DevOps  wiki   我眼中的DevOps DevOps工具

6. WIOP & IOTP


第二次:

主题:IBM大数据分析算法简介

内容简介:介绍IBM大数据分析算法家族。大数据分析是针对于大数据关键的应用,IBM有一系列的针对于大数据的分析算法来解决用户的商业问题,针对于这些算法族进行详细的介绍,让听众系统的了解数据分析算法可以解决的商业问题。

1.Big Data -4V 大数据的四个特点:

Volume: Data at Rest

Velocity: Data in Motion

Variety: Data in Many Forms

Veracity: Data in Doubt

2.IBM Big Data Algorithms - by Category

Data Exploration、Data Preparation、Regressioin & Classification、Frequent Pattern Mining、Clustering、Forecasting、Survival Analysis、Spatial Temporal、Ensemble Methods

3.IBM Big Data Offering

DSX(Data Science Exprience)、Waston Analytic、SPSS Statistics、SPSS Modeler


第三次:

主题:大数据分析之Spark

内容简介:介绍大数据分析的基本概念及应用,并详细介绍Spark的概念和架构,让学生可以了解大数据分析的发展方向。

1.大数据相关技术-存储技术

结构化数据:海量数据的查询、统计、更新等操作效率低;

非结构化数据:云图片、视频、WORD、PDF、PPT等文件存储。不利于检索、查询和存储。

半结构化数据:转换为结构化存储、按照非结构化存储

数据采集:ETL工具

基础架构支持:关系数据库,分布式文件系统(Distributed File System, DFS)

2.分析技术流程


业务理解、数据理解、数据准备、数据建模、评估、发布。

其中业务理解、数据处理,数据准备(理解、处理、分析)最耗时。

3.解决方案

MapReduce技术——>Hadoop——>Spark框架

MapReduce是Hadoop(用Java实现)的基础,Spark是Hadoop的改进。

MapReduce的流程:输入文件—>Map阶段(映射)—>中间阶段—>Reduce阶段(化简)—>输出文件

4.与 Hadoop 对比,如何看待 Spark 技术? Fr.知乎

5.Spark是什么?

Apache Spark 是一个快速的通用的大数据处理引擎。

Spark是一个开源的集群计算框架。

特点:

大数据:可以高效率处理数以PB计的海量数据;

快速:比Mapreduce Hadoop基于内存的计算块100倍;

通用:涵盖了众多的大数据处理组件库,结构化数据查询,实时数据处理,机器学习,图计算;

集群计算:数千个集群节点,有记录的最大集群有8000个节点。

6.为什么要使用Spark?

性能:基于内存的构架极大减小了磁盘IO;通用任务上20-100X速度的提升;

高效:精简且表达力强大的语法;统一的编程模型;能用主流语言编程Java、Python、Scala、R等;新工具减少使用障碍(SQL for analysts)

利用已有资产:同已有Hadoop生态系统很好的结合;

持续改进:大量社区工作者持续对Spark组件进行快速的更新。

7.常见流式数据处理框架:Spark Stream、Apache Spark 、Apache Samza、IBM InfoSphere Streams

8.通常有两种数据模块:DataFrames/RDD。

   Spark中存在RDD弹性分布式数据集。

   如何理解spark中RDD和DataFrame的结构?

9.Spark有四个模块:

(1)Spark SQL

(2)Spark Streaming 流式计算(实时),采用分时间窗来处理

(3)机器学习算法:分为监督式学习算法和非监督式学习算法,有两种学习库Spark MLlib和ML。

(4)图形计算:Spark GraphX

10.PageRank计算模型。

     PageRank 算法的复杂程度怎么样?

     PageRank算法简介及Map-Reduce实现


第四次:

主题:基于OpenStack的云计算平台

内容简介:基于OpenStack来构造云计算平台基础设施的原理和技术。讲座目的是引导学生思考传统计算模式向云计算模式的转变,认识云计算平台的主要架构部件和工作原理。讲座结合业界最为关注的OpenStack开源软件,讲解计算、存储和网络的虚拟化与管理。讲座结合实际生产环境中的部署经验,分析云计算目前仍然需要解决的技术问题,并展望未来云计算平台的发展方向。

1.什么是OpenStack

   OpenStack is a cloud operating system that controls large pools of compute, storage, and networking resources throughout a datacenter.

   OpenStack是Iaas软件,让任何人都可以自行建立和提供云端运算服务。

   OpenStack百度百科

   告诉你一个真实的 OpenStack:都谁在用,用来干什么?

2.hypervisors产生虚拟机。

3.云计算领域最具竞争力的是运维。


Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分?


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值