大数据相关技术
所谓大数据,通俗理解就是短时间内快速产生的海量数据的各种有价值的数据,关键词是时间短,快速,海量,有价值,数据,通过大数据技术分析海量数据来得到其中有价值的数据用于商业途径,譬如分析用户的行为来进行定向广告投放,产品推荐等等。
而处理大数据的技术主要有:
分布式存储:多台服务器并行计算(分布式计算)分布式的处理方式又分为批处理和流处理。所谓批处理,就是先攒一段时间的数据,等到又需求的时候再进行处理;而流处理则是实时处理产生的每一条数据,不攒数据。
机器学习:包含深度学习(神经网络),机器学习是一门新兴的技术,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。凡是预测类的工作需要用到机器学习。
分布式存储的思想就是用多台服务器进行存储,比如我又一个1TB大写的电影,那么我自己的电脑是存下来很占用空间,或者压根就没法存,那么我可以用我室友的电脑来帮助我保存,具体做法是将1TB大小的电影进行切割(假设切割丢包问题不大),可以切割为5个部分,一部分200G左右,我和4个室友就可以保存这部电影了,而当我要看这部电影的时候再从每台电脑中取出来进行拼接即可。分布式存储的一些概念此时可以引出:存储单元:被切割成5个部分的小电影;元数据:描述数据的数据;源数据:电影;代理节点(nameNode):管理元数据(索引);可以把我的电脑当作代理节点,因为我保存着我室友的电脑存储其他部分电影的索引,我的电脑能够按索引去取数据。而我的室友的电脑就可以看作是DataNode,用来存储各个部分的电影。因为分布式存储会存在安全问题,试想,如果我们其中一台电脑不能用了,那么整部电脑就没法看了,解决办法就是在各个电脑中作备份,比如室友1备份一份室友2存储的小电影,室友2备份室友3存储的小电影,以此递归备份,当一部电脑坏掉可以从其它电脑中拿到数据,这是牺牲了空间来换取数据安全