大数据的4V特征
体量大(volume):
非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。
多样性( variety ):
大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据)
无模式或者模式不明显,不连贯的语法或句意。
价值密度( value ):
大量的不相关信息,对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能vs传统商务智能(咨询、报告等))
速度(velocity):
实时分析而非批量式分析 数据输入。处理与丢弃 ,立竿见影而非事后见效
Hadoop优点
•⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
•⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
•⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
•⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
基于hadoo的框架
•HBase: 类似Google BigTable的分布式NoSQL列数据库。
•Hive:数据仓库工具,由Facebook贡献。
•Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
•Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
•Pig:大数据分析平台,为用户提供多种接口。
•Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
•Sqoop:于在HADOOP与传统的数据库间进行数据的传递。
Hadoop使用场景
•奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载。
•京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)。
•广告类公司:存储日志,通过协调过滤算法为客户推荐广告。
•Yahoo:垃圾邮件过滤。
•华为:云计算平台。
•某学校:学生上网与社会行为分析,使用Hadoop。
• 淘宝、阿里巴巴:国内使用Hadoop最深入的公司,整个淘宝和阿里巴巴都是数据驱动的。
•Aster
Hadoop生态系统介绍
Hbase
1)Nosql数据库,Key-Value存储
2)最大化利用内存
HDFS
1) hadoop distribute file system分布式文件系统
2)最大化利用磁盘
MapReduce
1)编程模型,主要用来做数据的分析
体量大(volume):
非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。
多样性( variety ):
大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据)
无模式或者模式不明显,不连贯的语法或句意。
价值密度( value ):
大量的不相关信息,对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能vs传统商务智能(咨询、报告等))
速度(velocity):
实时分析而非批量式分析 数据输入。处理与丢弃 ,立竿见影而非事后见效
Hadoop优点
•⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
•⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
•⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
•⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
基于hadoo的框架
•HBase: 类似Google BigTable的分布式NoSQL列数据库。
•Hive:数据仓库工具,由Facebook贡献。
•Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
•Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
•Pig:大数据分析平台,为用户提供多种接口。
•Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
•Sqoop:于在HADOOP与传统的数据库间进行数据的传递。
Hadoop使用场景
•奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载。
•京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)。
•广告类公司:存储日志,通过协调过滤算法为客户推荐广告。
•Yahoo:垃圾邮件过滤。
•华为:云计算平台。
•某学校:学生上网与社会行为分析,使用Hadoop。
• 淘宝、阿里巴巴:国内使用Hadoop最深入的公司,整个淘宝和阿里巴巴都是数据驱动的。
•Aster
Hadoop生态系统介绍
Hbase
1)Nosql数据库,Key-Value存储
2)最大化利用内存
HDFS
1) hadoop distribute file system分布式文件系统
2)最大化利用磁盘
MapReduce
1)编程模型,主要用来做数据的分析
2)最大化利用CPU
转载地址:https://blog.csdn.net/baidu_15113429/article/details/52993487