一、大数据
大数据不仅仅是数据的大量化而是包含快速化多样化和价值化等多重属性。他的数据类型繁多,是由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,它们与人类信息密切相关。
特点:
1.大量 大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时 间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。只有数据体量达到了PB级别以上,才能被称为大数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。随着信息技术的高速发展,数据开始爆发性增长。面对网络大量的数据迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据
2.高速 就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息。数据无时无刻不在产生,谁的速度更快,谁就有优势。
3.多样 广泛的数据来源,决定了大数据形式的多样性。每个地区,每个时间段,都会存在各种各样的数据多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等。
4.价值 这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。
二、Spark
Spark最初由美国加州大学伯克利
大数据生态与Spark
最新推荐文章于 2021-12-02 13:54:57 发布