机器学习基础知识

机器学习经典定义:利用经验改善系统自身的性能

经验以数据的形式存在于计算机系统,机器学习要去利用经验,就必须要对数据进行分析。机器学习现在主要是在研究只能数据分析的理论和方法。大数据经过智能数据分析(机器学习)才有大价值。

关于结果的东西叫作类别标记(label,标签)。训练数据经过训练过程得到一个模型。研究的核心是学习算法,而学习算法会直接导致你会获得什么样的模型。算法针对什么样的数据是有效的,这样的数据需要满足什么样的特点,而它产生的模型又是在什么情况下有效,这样的模型本身又具有什么样的特点。机器学习通常具有高度的不确定性,高度的复杂性。当我们的知识不能精确给我们结果,我们从数据里分析,希望从数据里得到答案。

基本术语

1.example:样例,有结果的,有label

2.instance:示例,没有结果的

3.假设:模型学到的东西,而这个东西是关于那结果的一个可能的规律

4.分类:离散的输出,比如yes or no ,二分类,多分类

5.回归:连续的输出,比如0到1之间,回归regression

6.监督学习:有导师的学习,典型任务:类似于离散类别的做聚类,如密度估计

7.无监督学习:拿到的数据里没有期望结果的,典型任务:预测类任务,分类,回归

8.独立同分布:所有的数据都是从未知分布来的

9.泛化:可以理解为推广,就是模型对新数据的处理能力

10.归纳偏好(inductive Bias):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其偏好。一般原则:奥卡姆剃刀准则。若非必要勿增实体(当我们发现有很多的假说很多的东西能够完美地解释我们的观察,这时候我们就选最简单的)学习算法的归纳 偏好是否与问题本身匹配,大多时候直接决定了算法能否取得好的性能

11.NLF定理(没有免费的午餐):一个算法a若在某些问题上比另一个算法b好,必存在另一些问题b比a好。所以具体问题具体分析。最优方案:按需定制,度身定制

12.泛化误差:在“未来”样本上的误差

     经验误差:在训练集上的误差,亦称为“训练误差”

13.过拟合(overfitting):误把训练集的特有的性质当成一般规律

欠拟合:

不同的算法是在用不同的机制在和overfitting做斗争,overfitting是机器学习里的核心内容。所有的算法,所有的技术都是在缓解overfitting

14.算法的参数:一般由人工设定,亦称“超参数”

模型的参数:一般由学习确定

调参过程相似:先产生若干模型,然后基于某种评估方法进行选择

验证集:训练集中专门留出来用来调参数的部分

三大问题

1.评估方法

关键:怎么获得“测试集”,测试集与训练集互斥

常见方法:1.留出法(hold-out)保证数据分布一致性(比如分层采样) 多次重复划分 测试集不能太大或太小。起到选择作用,选定后,应该把整个数据合起来,在训练模型

2.交叉验证法(cv)

3.自助法 基于“自助采样”

2.性能度量

性能度量是衡量模型泛化能力的评价标准

反映了任务需求

使用不同的性能度量往往会导致不同的评判结果。什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求

回归任务常用均方误差

精度vs错误率 精度=1-错误率

查准率=tp/tp+fp

查全率=tp/tp+fn

3.比较检验

机器学习———“概率近似正确”

统计假设检验为学习器性能比较提供了重要依据

两种学习器比较

交叉验证t检验

McNemar检验(基于列联表,卡方检验)

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值