http://my.csdn.net/q_anyang
栈 堆 类加载 垃圾回收
大数据技术
1、Hadoop
2、MapReduce
3、HDFS
4、HBase
三次信息化浪潮
1、1980 个人计算机 信息处理问题
2、1995 互联网 信息传输问题
3、2010 物联网、云计算、大数据 信息爆炸问题
信息科技提供技术支撑
1 解决信息存储、信息传输、信息处理三个问题
2、储存设备容量增加。闪存
3、CPU处理能力大幅提升。摩尔定律
18个月性能提高一倍 价格下降一半
4、网络带宽不断增加
数据产生方式变革
1、运营式系统阶段。数据库
2、用户原创内容阶段。web2.0
3、感知式系统阶段。传感器
大数据发展历程
第一阶段:萌芽期 20.90-21
第二阶段:成熟期 21世纪前十年
并行计算、分布式系统技术
第三阶段:大规模应用期
大数据四个特点:4V
1、数据量大 volume
B。KB。MB。GB。TB。PB。EB。ZB
2、数据类型多 variery
结构化数据。在关系数据库中。10%
非结构化数据。视频邮件音频等 90%
3、处理速度快 velocity
新型大数据技术:集群处理
独特的内部设计
例如谷歌Dremel技术 2-3s 查询PB级数据
4、价值密度低 value
大数据的影响
1、科学研究
实验、理论、计算、数据 四个范式
2、思维方式
全样而非抽样
效率而非精确
相关而非因果
3、社会发展
大数据决策成为新的决策方式
促进信息技术与各行业相融
推动新技术和新应用的不断涌现
4、就业市场
5、人才培养
大数据的关键技术
1、数据采集
利用ETL工具
2、数据存储和管理
利用分布式系统和各种数据库对三种结构数据进行存储管理
3、数据处理和分析
利用分布式并行编程模型和计算框架结合数据算法 对分析结果可视化呈现
4、数据安全和隐私保护
构建数据保护体系和数据安全体系
传统的OLAP分析面向结构化数据
大数据核心技术
1、分布式并行编程
2、分布式文件系统
3、分布式数据库
4、NoSQL数据库
5、云数据库
6、流计算
7、图计算等
大数据处理技术:MapReduce
大规模数据集:大于1TB
大数据计算模式
1、批处理计算。针对大规模数据处理。
MapReduce、Spark等
Spark是一个低延迟的集群分布式计算系统、启用内存分布数据集、优化迭代负
载、使用内存替代HDFS(稳定的文件系统)比MapReduce快得多
2、流计算。针对流数据实时计算
Storm、S4、Streams等
计算框架与平台
1、商业级流计算平台
IBM的 InfoSphere和 IBM StreamBase
2、开源流计算框架
Twitter Storm、Yahoo S4
3、支持自身业务开发的流计算框架
FaceBook Puma和HBase
百度 Dstream
淘宝-银河流数据处理平台
3、图计算。针对大规模图结构数据处理
Pregel、GraphX、Giraph等
pregel是一种基于BSP模型实现的并行图处理系统
4、查询分析计算。针对大规模存储管理查询分析
Dremel、Hive、Cassandra、Impaha等
大数据产业
1、IT基础设施层
2、数据源层
3、数据管理层
1、分布式文件系统
1、Hadoop的HDFS和谷歌的GFS
2 ETL工具
1、Informatica、Datestage、Kettle
3、数据库和数据仓库
1、Oracle、MySQL、SQL Server、Hbase、GreenPlum等
4、数据分析层
分布式计算框架:MapReduce
统计分析软件:SPSS、SAS
数据挖掘工具:Weka
数据可视化工具:Tableau
BI工具:MicroStrategy、Cogns、BO
5、数据平台层
6、数据应用层
IT领域的最新技术发展趋势
1、云计算
代表虚拟化技术核心、以低成本为目标、动态可扩展的网络应用基础设施、是最具代表性的网络计算技术与模式
三种服务模式
1、IaaS 基础设施及服务 公有云 基础设施服务层
2、PaaS 平台及服务 混合云 平台层
3、SaaS 软件即服务 私有云 应用层
云计算的关键技术
1、虚拟化:一台计算机虚拟为多台
技术:Hyper-V、VMware、KVM、Xen
Virtualbox、Qemu等
Vmware是全球桌面到数据中心虚拟化解决方案的领导厂商
2、分布式存储
技术:谷歌的GFS分布式文件系统
HDFS是对GFS的开源实现、而且基于java、可跨平台
谷歌以GFS为基础开发了分布式数据管理系统BigTable (稀疏、分布、持续多维度的排序映射数组)
HBase是针对BigTable的开源实现
3、分布式计算 MapReduce
4、多租户
2、大数据
3、物联网
技术架构上可以分为四层
1、感知层
2、网络层
3、处理层
4、应用层
物联网关键技术
1、识别和感知技术
二维码、RFID、传感器等
2、网络与通信技术
3、数据挖掘和融合技术
大数据与云计算、物联网的联系
1、物联网是大数据的重要来源、大数据为物联网数据分析提供支撑
2、云计算为大数据提供技术基础、大数据为云计算提供用武之地
3、云计算为物联网提供海量数据存储能力、物联网为云计算提供广阔的应用空间
区别:1、大数据侧重对海量数据存储处理分析、发现价值、云计算整合优化各种IT资源提供给用户、应用创新是物联网的发展核心
联系:大数据根植于云计算、云计算的分布式数据存储和管理系统提供能力、还有分布式并行处理框架MapReduce 物联网借助云计算和大数据实现大数据存储处理分析