机器学习入门讲解

参考书籍:  《统计学习方法 》(第二版) -------李航

                    《机器学习》 ------ 周志华

                    《高等数学(上)》和《高等数学(下)》 -------同济大学数学系编写,高等教育出版社

                    《线性代数》------- 同济大学第六版

                   《大学数学概率论与数理统计》-------- 科学出版社

此专栏主要用于我个人复习和整理所用。因为本人也是初学不久,如有纰漏,还望海涵赐教。这里主要是从我自己的理解去讲解。

以上就是我个人所使用的书籍,另外还需要一些知识储备,在遇到的时候我会进行尽量全面的讲解。

基本概念:

这里我们先从一些专业术语进行入手:

数据集:顾名思义,也就是数据的集合。

示例/样本:数据集中的每条记录是关于一个事件或对象的描述,称为示例。

属性:这里我们借用西瓜书的概念,它是反应事件或者对象在某方面的表现或性质的事项。

属性值:属性的取值

样本空间/属性空间/输入空间:属性张成的空间(我个人是这么理解的,就是所有属性所在的空间)

输入:把它理解成一个实例。

输出:经过模型运算之后得到的结果。

我们知道一个示例其实就相当于是一组数据,我们可以把这组数据转换为空间上的一个点,那么所有的点其实就构成了整个数据集了。这里我们顺便引入维数的概念,一个向量X= (x1,x2,x3....xn),其中xn代表第n个特征,我们就说X具有n个特征,也就是有n维。其实数据集就是由所有这样的向量构成的集合。即D= {X1,X2,X3.....Xm},D代表整个数据集,X1,X2....Xm代表所有的样本集合。如果说给了一个X12,这个其实就是让你取数据集中去找第一个样本的第二个特征值。

接着我们来讲解一下机器学习的分类,分别是:监督学习,半监督学习,无监督学习和强化学习。所谓监督学习,其实就是从标注数据中学习预测模型的机器学习问题,注意,是标注数据,也就是说我事先知道它是什么类型的,就比如说我们做一个分类问题,对应的情况是1,2,3,那么训练集上所有的数据都是已经标记过的,也就是说我知道它是1,2,3中的哪一个。半监督学习就是有一部分我知道是什么类型的,但是有一部分我不知道它是什么类型的,其中只有少量的标记数据,大量的数据是未被标记的。无监督学习就是没有标记的数据,也就是说我不知道它事先是哪一类的,需要我们自己区分出来。强化学习比较复杂,而且我本人也没有学到,这里我们暂时不做涉及。

在监督学习中,输入变量与输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输入变量与输出变量均为变量序列的预测问题称为标注问题。

概率模型与非概率模型:

在监督学习中,概率模型的形式一般是条件概率的形式,即P(z|x)或者P(x|z)这种,非概率模型指的就是函数表达式,即z = g(x),其中x是输入,z是输出。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

常见的概率模型有:决策树,朴素贝叶斯,隐马尔可夫等。

常见的非概率模型有:SVM(支持向量机),k近邻算法,AdaBoost,k均值(k-means),神经网络等。

概率模型一定可以表示为联合概率分布的形式,而非概率模型不一定存在这样的联合概率分布。

线性模型与非线性模型:

线性模型一般有:线性支持向量机,k近邻,k均值,潜在语义分析。

非线性模型:神经网络,AdaBoost,支持向量机。

参数化模型与非参数化模型:

参数化模型:感知机,朴素贝叶斯等。

非参数模型:决策树,支持向量机,k近邻等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值