而今机器学习的改进大致在两个方面,一方面是软件,就是算法方面,从最小二乘法出发,到贝叶斯思想。另一方面就是硬件,一是采用并行计算,比如GPGPU,FPGA;二是分布式计算,比如Apache的Hadoop,把任务划分成多个相同的线程,在大型集群中运行应用程序。
谈机器学习总以为全是那些复杂的数学推导。这倒不全对。大数据有好处也有劣处。好处是海量,而坏处是冗余。你获得的海量数据可能只用一个特征便可实现回归或者聚类。往往将数据输入模型训练前,对数据的准备工作要耗费整个流程百分之八十的时间。
爱上数据,而非学到算法。
在数据处理阶段的硬件层次,曾多采用异构架构进行算法加速。一是多核CPU.二是专用硬件,要么用ASIC流片,要么用FPGA设计大规模并行加速器。而在软件层面,你用Python也好,Java也好,不过是利用架构的接口给你提供了一个易用的框架。&#x