概论
数据一直都在以每年50%的速度增长
人类社会的数据产生方式:运营式系统阶段,用户原创内容阶段,感知式系统阶段
被动,主动和自动式大数据数据来源
自动式数据来源:互联网数据源,物联网数据源,智能终端数据源
大数据特征:数据规模量大,数据快速动态可变,类型丰富和巨大的数据价值
海量数据+复杂类型的数据
4V:体量大(Volume),多样性(variety),速度快(velocity),价值(value)
数据存在形式:结构化,非结构化,半结构化数据
速度快:数据产生快,分析处理速度快
实现大数据价值的有效分析:大分析,大带宽,大内容
大数据带来的变革:价值,经济,组织,思维(全样而非抽样,效率而非精确,相关而非因果)
挑战:数据集成(广泛的异构性,数据质量),数据分析(数据处理的实时性,动态变化环境中索引的设计,先验知识的缺乏),数据隐私和安全(隐形的数据暴露,数据公开与隐私保护的矛盾,数据动态性)大数据能耗(采用新型低功耗硬件,引入可再生的新能源)
大数据技术:数据采集,数据存取,基础架构,数据处理,数据分析
数据挖掘,模型预测,结果呈现
大数据存储和管理技术:分布式缓存(通过缓存数据库查询结果,减少数据库的访问次数,提高动态web应用的速度,提高扩展性),分布式数据库(数据规模大,数据类型多样化,面对不同文体数据管理不一样,可用性 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,使用HDFS作为其文件存储系统),分布式文件系统(Hadoop具备廉价的硬件技术、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,能支持海量数据存储和计算任务)
大数据分析技术:mapreduce(批处理),pregel(图计算),Dremel(海量数据分析),PowerDrill(大数据量的核心数据及处理),dryad(构建支持有向无环图类似数据流的并行程序)
实时数据处理:流处理模式,批处理模式,两者的融合
大数据处理流程:数据抽取与集成(物化或是ETL方法的引擎,联邦数据库或中间件方法的引擎,数据流方法的引擎,搜索引擎的方法),数据分析,数据解释(可视化技术,让用户在一定成都市那个了解与参与具体的分析过程)
大数据处理模型:流处理作为批处理的前端,流处理与批处理一起(流处理负责动态数据和实时智能,批处理负责静止数据和历史智能,实时智能和历史智能合并成为全时智能)
大体量、精确性和快不可兼得,最多取其二
178

被折叠的 条评论
为什么被折叠?



