大数据,机器学习,和深度学习的初步认识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/StepByStepTo/article/details/78160692
  • 大数据的核心在于新的大数据平台。
    大数据平台hadoop 使得原来需要超级计算中心才能做的事情,现在在企业,通过普通的集群也可以处理了。

  • 大数据的核心理论-谷歌的三大论文

    1. Google File System :分布式文件系统

      原来的数据存储有两大问题:

      1. 单个磁盘不够大——-> 解决方法是:GFS 的解决是多个磁盘(DataNode)来存储 ——-> 新的问题:效率地下 ——-> 新问题的解决办法水平复制+按照块存储(hadoop1.x 一个块 64M,hadoop2.x 一个块是128M)
      2. ——-> 新的问题:磁盘太慢 ——->新的解决方案:SPARK解决磁盘和内存映射问题
      3. 数据不安全。磁盘损坏,坏道等。——-> 解决多级冗余备份,对于hadoop默认是三级备份,也就是一份数据默认在三个位置上存储——-> 多个磁盘如何管理(NameNode)监控和处理磁盘故障
    2. BigTable 所有的数据存入一张表中间。

      好处效率更高,坏处需要的存储空间更大 ——-> HDFS 存储

      1. MapReduce

      解决大数据运算问题,Map 拆分计算,映射运算,reduce 规约汇总。

  • 机器学习与传统编程的区别
    传统编程是编程驱动数据,机器学习是算法部分和传统一样是用算法驱动数据,但是在训练上就是数据驱动编程,同样的算法,不同的数据得出来不同训练模型。

  • 机器学习与深度学习
    深度学习是一种特殊的机器学习,它将现实世界表示为嵌套的层次神经网络,从而获得强大的性能与灵活性。

  • 深度学习算法也就是改进了的神经网络。
    以前的机器学习算法偏向CNN,SVM等,不需要集群也能做出一点效果的,旧神经网络的算法很多时候不能做出好的效果,原因有二:其一是算法需要的计算即资源太多。其二数据一旦上规模之后,运算不出来。算法得到了改进,第二大数据的进步让规模以上数据的计算成为可能。

  • 未来的发展方向:

    1. 推理:类脑计算,机器推理
    2. 创造 —>方向还不明朗
展开阅读全文

没有更多推荐了,返回首页