大数据的定义:
“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题,由于成因复杂, 至今对大数据没有公认的定义。定义一:在What is “Big Data”?一文中把大数据定义为:所涉及的数据量规模巨大,无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。这种定义更强调处理能力。
定义二:在《大数据时代》一书中,把大数据看成是一种方法,即不能用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。这种定义更强调应用方法。
定义三:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这种定义更侧重应用价值。
以上三种定义中,第一种比较好理解,即“规模巨大,无法通过人工来处理”。
大数据无处不在
2006年个人用户迈入TB时代。硬盘的存储能力也一直在增强。1Byte=8bit
1KB=1024Byte
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
1YB=1024ZB
....
大数据的特点:(4V描述)
1.规模性(Volume):从数据的存储和计算均需耗费海量规模的资源。2.高速型(Velocity):新数据的产生速度快、需要实时处理,只有更新过的最新的数据才有价值。
3.多样性(Variety):数据的来源和形式多样。数据形式有结构化和非结构化等。数据的来源有网络日志、移动设备、医疗影像等方方面面。因为数据形式多样,所以处理技术也多样。
4.价值稀疏性(Value):大数据价值非常的高,但是知识密度非常低,所以只有经过高度分析的大数据才可以产生新的价值。
大数据的应用:
1.预测。比如通过相关数据预测NBA总冠军归属、总统选举的投票结果等。2.推荐。比如京东、淘宝等电子商务网站,采集大量的用户行为信息,为不同的用户推荐相关的商品,从而提高购买率。qq聊天对话框处也有广告推荐。
3.商业情报分析。比如飞机票价格随时间的变化规律。
4.科学研究。利用仪器获取数据或者利用模拟器生成数据,再利用软件处理数据,将知识或信息存储在计算机中,利用统计学方法进行科学发现。