机器学习-简介

什么是机器学习

    从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说, 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。

数据挖掘 = 机器学习 + 数据库

    数据挖掘是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每一个数据都能挖掘出金子的。

一个系统绝对不会由于上了一个数据挖掘模块就变得无所不能。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。

统计学习近似等于机器学习

    统计学习是个与机器学习高度重叠的学科,由于机器学习中的大多数方法来自统计学,甚至能够觉得,统计学的发展促进机器学习的发展。

计算机视觉 = 图像处理 + 机器学习

    图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责 从图像中识别出相关的模式。

计算机视觉相关的应用非常的多,比如百度识图、手写字符识别、车牌识别等等应用。

语音识别 = 语音处理 + 机器学习

    语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,通常会结合自然语言处理的相关技术,有关的应用有苹果的语音助手siri等。

自然语言处理 = 文本处理 + 机器学习

    自然语言处理技术主要是让机器理解人类的语言的一门领域。

机器学习分类

 一、监督学习

    通过已有的训练样本训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。就像有标准答案的练习题,然后再去考试,考试时有近似题我们根据之前的考试题推演出可能的答案,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。

    有监督算法常见的有:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。

 二、无监督学习

     训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。

二者的区别

   1、有 vs. 无训练样本:有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。

   2分类同时定性 vs. 先聚类后定性:有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。

   3、有 vs. 无 规律性:无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量(PCA),或分析数据集有什么特点都可以归于无监督学习方法的范畴。

   4、 分类 vs.聚类:有监督的核心是分类,无监督的核心是聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,无监督的工作是密度估计(寻找描述数据统计值),也就是无监督算法只要知道如何计算相似度就可以开始工作了。

基本概念

    要进行机器学习,必须先有数据,假定我们有一批有关狗的数据(腿=四条腿、声音=旺旺叫、尾巴=摇尾巴、耳朵=耳朵竖着),(腿=四条腿、旺旺叫、尾巴=尾巴下垂、耳朵=耳朵下垂)这组记录结合称为一个“数据集”。每条记录是一个事件或对象的描述,称为一个示例或样本(sample)。反应事件或对象某方面的表现或性质(“腿”)称为属性或特征,属性上的取值称为属性值或特征值“四条腿”。属性组成的空间称为属性空间或样本空间,空间的每个点对于一个坐标向量,因此我们把一个示例称为一个“特征向量”。

   训练过程使用的数据称为训练数据,每个样本称为训练样本,训练样本组成的集合称为训练集合

如果觉得文章能帮到您,欢迎关注微信公众号:“蓝天Java大数据” ,共同进步!

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值