一.大数据
1.4V-->数据量大/数据种类多/处理速度快/价值密度低
2.大数据技术-->数据采集/数据存储和管理/数据处理与分析/数据隐私和安全
3.大数据处理模式-->批处理模式/流模式/图模式/查询分析模式
二.云计算
1.云计算-->通过网络把分布式存储和分布式处理转成服务提供出去
2.3S-->IAAS(基础设施即服务)/PAAS(平台即服务)/SAAS(软件即服务)
3.云计算技术-->虚拟化/分布式存储/分布式处理/多租户
三.物联网
1.物联网-->物与物相连的网络
2.物联网体系结构-->应用层/处理层/网络层/感知层
3.物联网技术-->识别和感知技术/网络和通信技术/数据挖掘和融合技术
四.Hadoop
1.Hadoop-->Apache开源的分布式计算平台
2.Hadoop特性-->高可靠/高效/高可扩展/高容错/低成本/Java开发/运行在linux系统/支持多个语言api
3.Hadoop企业架构--
4.Hadoop发行版本-->
5.Hadoop1.0和2.0区别-->
6.Hadoop项目架构-->
7.Hadoop安装-->
1.单机模式(默认本地模式,单节点单java进程)
2.伪分布式模式(单节点多java进程)
3.分布式模式(多节点集群方式)
五.分布式文件系统HDFS
主要节点类型-->
1.NameNode(名称节点)-->FsImage+EditLog
2.DataNode(数据节点)-->JobTracker+taskTracker
3.SecondaryNameNode(第二名称节点)-->作为NameNode的冷备
六.分布式数据库HBase
1.HBase-->HBase是一个高可靠,高性能,面向列,可伸缩的分布式数据库(分布式存储系统),是BigTable的开源实现,存储非结构化和半结构化的松散数据
2.HBase与传统关系型数据库的区别-->
数据类型:关系数据库用丰富数据类型和存储方式,HBase存储数据为未经解释的字符串
数据操作:关系数据库有复杂的多表连接,HBase不存在,只有简单的插入,查询,删除,清空
存储模式:关系数据库为行模式存储,HBase为列模式存储
数据索引:关系数据库可构建复杂的多个索引,HBase只有一个行键索引
数据维护:关系数据库更新后旧值会被覆盖,HBase更新会保留旧的版本
可伸缩性:关系数据库很难实现横向和纵向的扩展,HBase很容易现实水平扩展
3.HBase接口访问-->
4.HBase数据模型(表/行键/列族/列限定符/时间戳)四维坐标:[行键,列族,列限定符,时间戳]-->
5.HBase功能组件(库函数/一个master主服务器/多个Region服务器)-->
库函数用于客户端的连接
主服务器用于管理和维护分区信息,维护Region服务器列表,分配Region,负载均衡
Region服务器用于存储维护分配给自己的Region,处理来自客户端的请求
客户端(会缓存位置信息)访问zookeeper来获取ROOT表位置,ROOT表中记录META表的位置信息
ROOT表只有一个,META表会被分为多个Region,META表记录Region和Region服务器的映射关系
6.HBase系统架构-->
7.Region服务器-->
8.HBase性能监视-->Master_status(自带)/Ganglia/OpenTSDB/Ambari
9.HBase之SQL有引擎-->Hive整合HBase/Phoenix
10.HBase利用Coprocessor特性构建二级索引-->Hindex二级索引/HBase+Redis/HBase+Solr
七.NoSQL数据库
1.数据处理分为OLTP(在线事物处理)/OLAP(在线分析处理)
2.数据库分为关系型数据库(RDBMS)和非关系型数据库(NoSQL)
3.RDBMS分为OLDSQL(oracle,mysql,postgreSql等)/NEWSQL(sequoiaDB,mysql cluster等)
4.NOSQL分为键值数据库(redis),文档数据库(mongodb),列族数据库(Hbase),图像数据库(Neo4j)
5.NEWSQL包含OLDSQL和NOSQL两者的特性,是一种新型关系数据库