云计算基础
云计算:通过网络提供的可动态伸缩的廉价计算能力。具有超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务、及其廉价、潜在危险性的特点。
云计算服务类型:
- SaaS(software):web、多主租用、不必购买。
- PaaS(platform)
- IaaS(infrastructure):IaaS计算实现机制中,系统管理模块的核心功能是负载均衡。
简化的IaaS实现机制中分为5个模块:
- 用户交互接口:以web services方式向用户提供访问接口,获取用户需求。
- 服务目录:用户可以访问的服务清单。
- 系统管理模块:管理和分配所有可用资源,负载均衡。
- 配置工具:在分配节点上准备运行环境。
- 监控统计模块:监视节点的运行状态,完成用户使用节点的统计情况。
云计算架构:SOA构件层、管理中间件层、资源池层、物理资源层。
中间件层的功能:资源管理、任务管理、用户管理、安全管理。
客户操作系统无需修改就能在虚拟服务器上运行的虚拟化技术是完全虚拟化。
虚拟化的方法:拆分、整合、迁移。
云计算虚拟技术能够提高资源利用率,包含虚拟机资源调整(CPU虚拟化)、内存复用(内存虚拟化)、提高服务器效率(服务器虚拟化)、存储虚拟化、网络虚拟化、IO虚拟化、软件虚拟化、桌面虚拟化。
Hadoop,基于java开发的开源分布式系统基础架构,核心设计是HDFS(存储)和MapReduce(计算),核心组件是HDFS、MapReduce和Yarn,特点是高效性、高可靠性、高可扩展性、高容错性、成本低、运行于linux、支持多种编程语言。
HDFS采用客户-服务器模式构建分布式存储集群,对内采用客户-服务器模式,对外统一存储空间,统一文件接口。
Yarn是分布式操作系统,管理整个集群的计算资源,提供用户程序访问系统资源的API。分为资源管理模块和任务管理模块。
HDFS和Yarn都是master-slave架构。
GFS特点:中心服务器模式(master+n chunk server)、不缓存数据、用户态实现。
GFS系统管理技术:大规模集群安装技术、故障检测技术、节点动态接入技术、节能技术。
Map函数将任务分散成多个子任务,Reduce函数负责把分解后多个任务的处理结果汇总。
Amazon EC2是一种Web服务,在云中提供安全的计算,并且可以调整计算容量的大小。
物联网基础
物联网必须满足:有数据传输通路、数据发送器、CPU、操作系统。
物联网世界信息产业的第三次浪潮。
物联网是基于互联网之上的一种高级网络形态。
物联网的三个特征:全面感知、可靠传递、智能处理。
物联网三层体系结构:感知层(数据采集、数据短距离传输)、网络层(基础)、应用层。
物联网四层体系架构:感知控制层、数据传输层(接入网、核心网)、动态组织管理层、应用决策层。
物联网五层体系架构:底层泛在感知网络、异构网络接入层、骨干传输网、网络中间件、泛在网络应用平台。
物联网的四大关键技术:物体识别RFID技术、感知物体动态信息的传感器技术、实现信息传递的通信技术和网络融合技术、信息处理的融合技术。
三网融合:电信网、计算机通信网、有线电视网。
IBM提出的物联网架构是八横四纵。
常见的物联网识别技术:射频识别、二维码技术、一维条形码。
射频识别系统通过空间耦合实现信息传递,通常由电子标签、阅读器、数据管理系统组成。
电子标签根据工作频段分为:低频、高频、超高频、微波,按照供电方式分为有源标签、无源标签和半有源电子标签。
传感器的静态特性:线性度、灵敏度、迟滞性、重复性。
二维码特征:
- 信息容量大,比一维条形码大得多。
- 编码范围广。
- 保密性好。
- 可靠性高。
- 修正能力强,污染面积小于50%且不损坏三个角的定位区照样可以读出信息。
- 成本低。
二维码与条形码对比:
- 条形码信息密度低于二维码。
- 二维码有纠错能力,条形码没有。
- 条形码垂直方向不懈怠信息,二维码携带。
二维码分为堆积码和矩阵码。
RFID是非接触式全自动的识别技术,二维码和条形码都是接触式的。
RFID可以工作在恶劣环境,可以识别高速移动的物体,可以同时识别多个标签。
RFID系统的组成包括标签、读写器、天线、RFID中间件。
常见的定位技术:卫星定位GPS(跨洋通信)、WIFI定位、蜂窝定位。
蜂窝定位的常用方法:COO定位(单基站)、TOA定位(三基站)、TDOA定位(三基站)、AOA定位(双基站)、A-GPS定位(基站+GPS)。
物联网的通信分类分为近距离通信技术、远距离通信技术。
近距离通信技术有:WiFi、蓝牙、ZigBee、红外通信、UWB超宽带技术。
WIFI(802.11):
- 11b,2.4GHZ频段,11Mbps;
- 11a,5GHZ频段,54Mbps;
- 11g,2.4GHZ,54Mbps;
- 11n,2.4或5GHZ,450Mbps;
WIFi特点:
- 覆盖范围广。
- 传输速度快。
- 建网成本低。
- 具备任意网卡即可接入WiFi。
WIFI两种组网方式:没有接入点AP的自组织方式Adhoc,还有一种利用无线路由器作为访问接入点。
蓝牙(802.15.1),短距离通信,10m,低功率,24GHZ频段,79个信道。
ZigBee(802.15.4,CSMA/CA),高可靠无线数传网络,具有低成本、低功耗、低速率、低距离、低时延(较wifi、蓝牙短)、高容量、高安全、免执照频段的特点。
物联网长距离通信:卫星通信、微波通信、移动通信。
卫星通信:利用人造卫星作为中转站,转发无线信号,在地面站之间进行通信,工作在微波频段,微波介质。覆盖范围大,频带宽,通信质量高,电路使用费用与通信距离无关,多址连接。
微波通信:视距通信,频带宽,通信容量大,传播稳定,质量高,常用于军事。
无线传感器体系结构:传感器结点、汇聚结点、任务管理结点。
无线传感器节点通常由传感器模块(传感)、处理器模块(计算)、无线通信模块(通信)、能源供应模块(电源)构成。
无线传感器网络由对等结点构成,不存在中心控制。
无线传感器网络只能获取标量信息。
区块链的特征:
- 开放、共识
- 去中心、去信任
- 交易透明、双方匿名
- 不可篡改、可追溯
大数据基础
大数据的特征:数据量大、价值密度(不大)、类型多样、高速。
大数据更强调数据的完整性和混杂性。
数据清洗一般解决四个问题:
- 解决不完整数据方法(缺省值处理)
- 错误值的检测与解决
- 重复数值的检测与消除
- 不一致的检测与解决
支撑大数据业务的基础是数据应用。
数据规约是指在尽可能保持数据原貌的前提下,极大限度的精简数据量。
大数据带来的思维变革:
- 更多:不是随机样本,全是全体数据。
- 更杂:不是精确性,而是混杂性。
- 更好:不是因果关系,而是相关关系。
数据仓库环境的核心是数据仓库数据库。
数据挖掘的组件包括:模型or模型结构、评分函数、优化和搜索方法、数据管理策略。
数据挖掘技术包括三个主要部分:数据、建模能力、算法与技术。
数据挖掘的预测建模任务主要包括分类和回归两大类问题。
大数据相比于传统数据挖掘更显著的特征是处理速度更快。
数据挖掘与知识发现KDD。
最为突出的大数据环境是互联网。
大数据的简单算法与小数据的复杂算法相比更有效。
大数据主要面向的数据类型包含:半结构化数据、结构化数据、非结构化数据。
- 半结构化数据:XML、JSON。
- 非结构化数据:文本、图像、HTML。
- 结构化数据:关系数据库。
数据再利用无法优化存储设备、降低成本。
数据生命管理周期能够产生效益的同时,提高生产成本。
数据化最早的根基是计量和记录。
数据创新包含数据的再利用、重组数据、可扩展数据、数据的折旧值。
大数据的发展使信息技术变革的重点从关注技术转向关注信息。
数据只有开发价值才能得到真正的释放。
数据是最核心的部分。
一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。
智慧城市的智慧之源是大数据。
网络爬虫最基础的爬行策略:深度优先、广度优先。
数据集的一般特性:维度、稀疏性、分辨率。
以特征向量的相关系数作为模式相似性度量,影响聚类算法结果的主要因素有特征选取、欧式距离。
流数据对应动态计算,批数据对应静态计算。
人工智能基础
训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,测试集检验最终选择最优的模型性能。
人工智能是一门边缘学科,属于自然科学和社会科学的交叉。