并不照搬书本、通俗易懂例子、我自己的理解之第一章 统计学习的方法概论(1)

    这是我——"果壳三明治"的第一篇博客。

    2017的金秋十月,在图书馆看小蓝书,云里雾里。

    2018的春光五月,在图书馆再看小蓝书,有了许多新的理解。

    目前国内的关于机器学习最好的两本书:周志华老师的《机器学习》(西瓜书)和李航老师的《统计学习方法》(小蓝书)。

    接下来,我就先按小蓝书的顺序,删繁就简的分享下我的理解(后面再分享西瓜书),希望对看到博客的有所帮助。

    话不多数,进入正题!

1.1统计学习

    概念:

    统计学习,也称为统计机器学习,也就是我们常说的机器学习。

    机器学习为什么叫统计学习?

    答:机器学习以数据为研究对象。由于同类数据具有一定的统计规律性,可以用概率统计方法来研究。因此称为统计学习。如果想深入的学习概率统计,推荐买一本陈希孺前辈的《概率论与数理统计》。

    举例解释什么是统计学习:

    (1)很多同学考试之前,没有时间看课本,所以就刷题去发现规律,完全不知道原理也可以做出考试题。这就是统计学习。

    (2)去市场买西瓜,什么样的瓜好?买的次数多了,就会发现规律,会根据色泽、根蒂、敲声等挑出好瓜。这也是统计学习。

    统计学习的目的是什么?

    答:统计学习通过对旧数据的分析,对未知新数据进行预测分析

    还是上面的例子:

    (1)旧数据就是刷的题;新数据是考试题。目的是分析出考试题怎么做。

    (2)旧数据是以前买过的瓜;新数据是待买的西瓜。目的是预测出待买的西瓜好不好。

    统计学习的方法都有什么?

    答:监督学习、非监督学习、半监督学习、强化学习。这个后面我会具体讲解。

    统计学习的研究层次:

    1、开发新的学习方法。

    2、探求方法的有效性与效率。

    3、将统计学习方法应用到实际问题中去,解决实际问题。

    有人会说:我就是应用,用python去import个包就行,我不需要学那么多原理。

    有人会说:我要搞研究,应用什么的太low

    这两种想法都是极其错误的。要想应用好,了解原理是必须的,会让你节省很多无用功!要想搞研究,你连编代码跑程序都不会,怎么写论文?还怎么研究?

    统计学习的重要性:

    统计学习很重要!统计学习是深度学习、人工智能、数据挖掘、自然语言处理等的核心技术和基础

    直接发现一个原理很难,但从现象中发现规律,从规律中探寻原理会轻松许多。

    人类学习知识的本质,也是通过实践总结规律,得出经验,有时为了得到更好的进行新的尝试。

    机器学习也一样,通过实践得到的数据统计规律,得出结果,有时为了跳出局部最优,寻找全局最优,也会进行尝试。

    AI的可怕之处在于,DeepMind团队成员并不需要有很高的围棋技术,就可以做出打败人类最强棋手李世石柯洁的AlphaGo。

    笔者认为,未来人工智能会极大的促进人类发展!不过,我也赞同马文·明斯基所说:人类不是进化的终点。

1.2监督学习

    小蓝书主要讨论监督学习。

    输入空间、输出空间、特征空间

    顾名思义,就是输入和输出。在统计学习中,输入空间通常会用特征空间表示。输出空间,通常称为标签

    举例解释下三个空间:

    区分人种,并不需要把身体的所有数据(输入空间)都输入,只需把肤色、眼睛颜色、头发颜色、体毛多少等特征(特征空间)输入就可以。输出空间,就是黄种人、白种人、黑种人。。

    我们习惯上把输入变量写作X,输出变量写作Y 。实例用小写字母表示:xi=(xi(1),xi(2),….xi(n))T

    上式中,i代表多个输入变量的第i个。括号中的数字代表是第几个特征。每个 xi 都有对应的 y

    整个训练集通常表示为:T={(x1,y1),(x2,y2),…,(xN,yN)}。

    举例解释下上式:

        选西瓜,xi 是第i个西瓜,xi(1)表示第i个西瓜的第一个特征(色泽),y是甜或者不甜。

    监督学习的训练集的 是已知的,测试集和训练集表示一样,但 是未知的。

    如果变量是连续的,称为回归问题;如果变量是有限个离散的,称为分类问题

    联合概率密度:

    监督学习假设XY 遵循联合概率分布P(X,Y)。也就是说,假定数据存在一定的分布规律。所以,如果我们求出来联合概率分布,那就可以将X 带入P(X,Y) 得到Y 的值 了(有时并不需要求联合概率分布也可以得到)。

    假设空间:

    监督学习的目的是学习一个由X到Y的映射,是空间,是空间,所以映射也是空间,称为假设空间。(空间暂且可以理解为用来表示多维数据。)

    这一映射由模型来表示,监督学习的模型可以是概率模型非概率模型。由条件概率分布P(Y |X)或决策函数Y = f(X)表示。

    问题的形式化:

    监督学习就是利用训练数据集学习一个模型(也就是一个Y 的映射),再用模型,测试样本的进行预测

    训练的目的是为了让模型对已知的测试样本的预测更准确,同时对其他未知的测试数据集的预测又要有尽可能好的结果。

    

好了,第一次先写这么多。写得太长的话,写起来痛苦,看的人看起来也漫长。下一篇写第一章(2)。

感谢阅读!参考自《统计学习方法》

    

    

    

    

    

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

果壳三明治

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值