一.大数据与机器学习
大数据时代,数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长,由此诞生了一系列的以Hadoop为代表的大数据技术,这些大数据技术为处理和存储这些数据提供了可靠的保障。
数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题,需要加之人们的一些经验,将其转换为信息,所谓信息,也就是为了消除不确定性,我们常说信息不对称,指的就是在不能够获取足够的信息时,很难消除一些不确定的因素。而知识则是最高阶段,所以数据挖掘也叫知识发现。
机器学习的任务就是利用一些算法,作用于大数据,然后挖掘背后所蕴含的潜在的知识。训练的数据越多,机器学习就越能体现出优势,以前机器学习解决不了的问题,现在通过大数据技术可以得到很好的解决,性能也会大幅度提升,如语音识别、图像识别等等。
二.机器学习分类
机器学习主要分为下面几大类:
- 监督学习(supervised learning)
基本上是分类的同义词。学习中的监督
来自训练数据集中标记的实例。比如,在邮政编码识别问题中,一组手写邮政编码图像与其对应的机器可读的转换物用作训练实例,监督分类模型的学习。常见的监督学习算法包括:线性回归、逻辑回归、决策树、朴素贝叶斯、支持向量机等等。 - 无监督学习(unsupervised learning)
本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。无监督学习的任务是从给定的数据集中,挖掘出潜在的结构