《机器学习》(西瓜书学习笔记) 第一章绪论

引言

机器学习:致力于通过计算的手段,利用经验(数据)来改善系统自身的性能。即在计算机上从数据中产生模型的算法

基本术语

1.数据集(data set):记录的集合
2.样本(sample):记录是关于事件或对象的描述
3.属性(attribute/feature):反应事件或者对象在某方面的表现或特征
4.d维样本空间的向量:d指属性的个数
5.学习、训练:指在数据(学习数据)中学习模型的过
6.预测,标记(label):得到的结果,(事例x,标记y)标记空间
7.若预测的是离散值–分类(classification);若预测的结果是连续值–回归(regression);只涉及到两个类别(binary classification)的任务,通常称其中一个叫做正类,另一个是反类;涉及多个类别称为多分类任务。
8.测试(testing):进行预测的过程
9.聚类(clustering):将训练集中像本分成若干组(簇cluster),这些自动形成的簇可能对应一些潜在概念(这些概念我们事先不知道,训练样本通常不含有标记信息)。
10.有/无监督学习(supervised learning):前者include分类和回归,后者包括来聚类
11.泛化能力(generalization):学的模型适用于新样本的能力

假设空间

科学推理的手段:

  • 归纳(induction):从特殊到一般的泛化过程
  • 演绎(deduction):从一般到特殊的特化过程

归纳学习:从样例中学习,eg布尔概率学习

归纳偏好

机器学习过程中对某种类型的偏好(inductive bias)。
奥卡姆剃刀原则:若有多个假设和观察一直,则选择最简单的那个。
对应着什么样的模型更好的假设。

发展历程

应用现状

深入研究和整合大数据时代的三大技术:机器学习、云计算、众包。
数据挖掘和机器学习

  • 数据挖掘是从海量数据中发掘知识,必然涉及到对海量数据的管理分析,数据数据库的研究是为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值