大数据简介

大数据的4V特征 
体量大(volume): 
非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。 
多样性( variety ): 
大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据) 
无模式或者模式不明显,不连贯的语法或句意。 
价值密度( value ): 
大量的不相关信息,对未来趋势与模式的可预测分析 
深度复杂分析(机器学习、人工智能vs传统商务智能(咨询、报告等)) 
速度(velocity): 
实时分析而非批量式分析 数据输入。处理与丢弃 ,立竿见影而非事后见效 
Hadoop优点 
•⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 
•⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 
•⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 
•⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 
基于hadoo的框架 
•HBase: 类似Google BigTable的分布式NoSQL列数据库。 
•Hive:数据仓库工具,由Facebook贡献。 
•Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。 
•Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。 
•Pig:大数据分析平台,为用户提供多种接口。 
•Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。 
•Sqoop:于在HADOOP与传统的数据库间进行数据的传递。 
Hadoop使用场景 
•奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载。 
•京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)。 
•广告类公司:存储日志,通过协调过滤算法为客户推荐广告。 
•Yahoo:垃圾邮件过滤。 
•华为:云计算平台。 
•某学校:学生上网与社会行为分析,使用Hadoop。 
• 淘宝、阿里巴巴:国内使用Hadoop最深入的公司,整个淘宝和阿里巴巴都是数据驱动的。 
•Aster 
Hadoop生态系统介绍 
Hbase 
1)Nosql数据库,Key-Value存储 
2)最大化利用内存 
HDFS 
1) hadoop distribute file system分布式文件系统 
2)最大化利用磁盘 
MapReduce 
1)编程模型,主要用来做数据的分析 

2)最大化利用CPU


转载地址:https://blog.csdn.net/baidu_15113429/article/details/52993487


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值