大数据相关技术

大数据涉及到海量数据的快速处理和分析,以提取有价值信息。分布式存储通过多台服务器并行计算,包括批处理和流处理模式。机器学习,特别是深度学习,用于预测和决策。分布式存储中,元数据管理和数据备份策略确保了数据的安全和可用性。
摘要由CSDN通过智能技术生成

大数据相关技术

所谓大数据,通俗理解就是短时间内快速产生的海量数据的各种有价值的数据,关键词是时间短,快速,海量,有价值,数据,通过大数据技术分析海量数据来得到其中有价值的数据用于商业途径,譬如分析用户的行为来进行定向广告投放,产品推荐等等。

而处理大数据的技术主要有:

分布式存储:多台服务器并行计算(分布式计算)分布式的处理方式又分为批处理和流处理。所谓批处理,就是先攒一段时间的数据,等到又需求的时候再进行处理;而流处理则是实时处理产生的每一条数据,不攒数据。

机器学习:包含深度学习(神经网络),机器学习是一门新兴的技术,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。凡是预测类的工作需要用到机器学习。

分布式存储的思想就是用多台服务器进行存储,比如我又一个1TB大写的电影,那么我自己的电脑是存下来很占用空间,或者压根就没法存,那么我可以用我室友的电脑来帮助我保存,具体做法是将1TB大小的电影进行切割(假设切割丢包问题不大),可以切割为5个部分,一部分200G左右,我和4个室友就可以保存这部电影了,而当我要看这部电影的时候再从每台电脑中取出来进行拼接即可。分布式存储的一些概念此时可以引出:存储单元:被切割成5个部分的小电影;元数据:描述数据的数据;源数据:电影;代理节点(nameNode):管理元数据(索引);可以把我的电脑当作代理节点,因为我保存着我室友的电脑存储其他部分电影的索引,我的电脑能够按索引去取数据。而我的室友的电脑就可以看作是DataNode,用来存储各个部分的电影。因为分布式存储会存在安全问题,试想,如果我们其中一台电脑不能用了,那么整部电脑就没法看了,解决办法就是在各个电脑中作备份,比如室友1备份一份室友2存储的小电影,室友2备份室友3存储的小电影,以此递归备份,当一部电脑坏掉可以从其它电脑中拿到数据,这是牺牲了空间来换取数据安全

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值