大数据全样而非抽样原理_大数据技术原理与应用笔记（1）——大数...

最新推荐文章于 2023-07-12 14:38:32 发布

weixin_39543773

最新推荐文章于 2023-07-12 14:38:32 发布

阅读量3.8k

点赞数

文章标签：大数据全样而非抽样原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39543773/article/details/111551231

版权

大数据概述

目录

1.1大数据概念

(1)数据量大/“大量化”

(2)数据类型繁多/“多样化”

10%结构化数据，90%非结构化数据

(3)处理速度快/“快速化”

1秒定律——秒级决策

(4)价值密度低，商业价值高/“价值化”

1.2数据产生方式

运营式系统阶段——>用户原创内容阶段——>感知式系统阶段

感知式系统阶段也就是物联网的大规模普及，物联网的迅速发展让大数据最终到来。

1.3技术支撑

(1)存储设备容量不断增大

(2)CPU处理能力大幅提升

(3)网络带宽不断增加

1.4大数据的影响

(1)科学研究范式的改变

实验——>理论——>计算——>数据

实验：以实验的方式验证科学问题

理论：以理论的方式研究科学问题

计算：用计算机(计算)去解决科学问题

数据：以数据为驱动研究问题，即大数据分析

数据研究范式和其他范式的区别：一开始并不清楚问题所在，通过大数据分析发现问题(问题发现)；而不像以前，知道是什么问题，我们去找答案(答案查找)。

(2)思维方式的改变

全样而非抽样

以前做数据分析，因为计算能力的限制，只能做抽样分析；而现在分布式计算网络的出现，使得成百上千的CPU可以同时计算，因此也不需要抽样，而是全样的数据分析。

效率而非精确

抽样分析通常最求算法精确度高，因为如果抽样精确度不高，放到全样误差会被放大。而大数据时代是对全样进行分析，误差不会被放大，误差是多少就是多少，因此我们不会刻意的追求算法的精度，所以我们更最求时效性，很多数据在一瞬间没有得出结果的话，它的价值就丢失了。

相关而非因果

关注事物之间的相关性，而不是因果性

1.5大数据的关键技术

(1)大数据技术的不同层面及其功能

数据采集

利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析。

数据存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等，实现对结构化、半结构化和非结构化海量数据的存储和管理。

数据处理与分析

利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析；对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据。

数据隐私和安全

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全。

(2)大数据核心技术

分布式存储

解决海量数据的存储分布式计算

解决海量数据的分析

1.6大数据的计算模式

大数据计算模式

解决问题

代表产品批处理计算

针对大规模数据的批处理

MapReduce、Spark

流计算

针对流数据的实时计算

Storm、S4

图计算

针对大规模图结构数据的处理

Pregel、GraphX

查询分析计算

大规模数据的存储管理和查询分析

Dremel、Hive

?

weixin_39543773

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据全样而非抽样原理_大数据技术原理与应用笔记（1）——大数...

大数据概述目录1.1大数据概念(1)数据量大/“大量化”(2)数据类型繁多/“多样化”10%结构化数据，90%非结构化数据(3)处理速度快/“快速化”1秒定律——秒级决策(4)价值密度低，商业价值高/“价值化”1.2数据产生方式运营式系统阶段——>用户原创内容阶段——>感知式系统阶段感知式系统阶段也就是物联网的大规模普及，物联网的迅速发展让大数据最终到来。1.3技术支撑(1)存储设备容...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。