大数据导论概论

概论

数据一直都在以每年50%的速度增长

人类社会的数据产生方式:运营式系统阶段,用户原创内容阶段,感知式系统阶段

被动,主动和自动式大数据数据来源

自动式数据来源:互联网数据源,物联网数据源,智能终端数据源

大数据特征:数据规模量大,数据快速动态可变,类型丰富和巨大的数据价值

海量数据+复杂类型的数据

4V:体量大(Volume),多样性(variety),速度快(velocity),价值(value)

数据存在形式:结构化,非结构化,半结构化数据

速度快:数据产生快,分析处理速度快

实现大数据价值的有效分析:大分析,大带宽,大内容

大数据带来的变革:价值,经济,组织,思维(全样而非抽样,效率而非精确,相关而非因果)

挑战:数据集成(广泛的异构性,数据质量),数据分析(数据处理的实时性,动态变化环境中索引的设计,先验知识的缺乏),数据隐私和安全(隐形的数据暴露,数据公开与隐私保护的矛盾,数据动态性)大数据能耗(采用新型低功耗硬件,引入可再生的新能源)

大数据技术:数据采集,数据存取,基础架构,数据处理,数据分析

数据挖掘,模型预测,结果呈现

大数据存储和管理技术:分布式缓存(通过缓存数据库查询结果,减少数据库的访问次数,提高动态web应用的速度,提高扩展性),分布式数据库(数据规模大,数据类型多样化,面对不同文体数据管理不一样,可用性 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,使用HDFS作为其文件存储系统),分布式文件系统(Hadoop具备廉价的硬件技术、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,能支持海量数据存储和计算任务)

大数据分析技术:mapreduce(批处理),pregel(图计算),Dremel(海量数据分析),PowerDrill(大数据量的核心数据及处理),dryad(构建支持有向无环图类似数据流的并行程序)

实时数据处理:流处理模式,批处理模式,两者的融合

大数据处理流程:数据抽取与集成(物化或是ETL方法的引擎,联邦数据库或中间件方法的引擎,数据流方法的引擎,搜索引擎的方法),数据分析,数据解释(可视化技术,让用户在一定成都市那个了解与参与具体的分析过程)

大数据处理模型:流处理作为批处理的前端,流处理与批处理一起(流处理负责动态数据和实时智能,批处理负责静止数据和历史智能,实时智能和历史智能合并成为全时智能)

大体量、精确性和快不可兼得,最多取其二

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值