Datawhale第23期组队集成学习上-Task1

最新推荐文章于 2021-04-26 20:58:50 发布

DreamStar_w

最新推荐文章于 2021-04-26 20:58:50 发布

阅读量327

点赞数

原文链接：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

版权

Datawhale第23期组队集成学习上-Task1

机器学习的三大主要任务

机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。
数据通常由一组向量组成，这组向量中的每个向量都是一个样本，一般用 $x_i$ 来表示一个样本，而其中 $i = 1, 2, 3, . . ., N$ ，共有N个样本。每个样本 $x_i=(x_{i1},x_{i2},...,x_{ip},y_i)$ 共有p+1个维度，前p个维度的每个维度，我们称之为一个特征。最后一个维度 $y_i$ ，称它为因变量。特征用来描述影响因变量的因素。
通常一个数据表DataFrame里面，一行表示一个样本 $x_i$ ，一列表示一个特征。

有如下所示的图，表示机器学习。

在这里插入图片描述

1. 有监督学习

有监督学习：给定某些特征估计因变量，即因变量存在的时候，我们称这个这个机器学习任务为有监督学习。如：房间面积，房屋所在地区，环境等级等因素去预测某个地区的房价。

根据因变量是否连续，有监督学习中又分为回归和分类：

回归：因变量是连续型变量，如：房价、体重等。
- 有关的回归算法：线性回归、Ridge回归(岭回归)、Lasso最小回归系数估计。
分类：因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。
- 有关的分类算法：K-近邻算法、朴素贝叶斯算法、支持向量机、决策树。

1.1 回归

1.1.1线性回归

只包括一个自变量和一个因变量，且两者的关系可用一条直线近似表示——一元线性回归分析。
包括两个或两个以上的自变量，且因变量和自变量之间是线性关系——多元线性回归分析。

1.1.2 Ridge回归

Ridge回归又称岭回归，实质上是一种改良的最小二乘估计法。通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。它是对不适定问题进行回归分析时最经常使用的一种正则化方法。

1.1.3 Lasso最小回归系数估计

Lasso方法是以缩小变量集（降阶）为思想的压缩估计方法。它通过构造一个惩罚函数，可将变量的系数进行压缩并使某些回归系数变为0，进而达到变量选择的目的。

1.2 分类

1.2.1 K-近邻算法

K最近邻(KNN)分类算法是最简单的机器学习算法之一，它的思路：在特征空间中，若一个样本附件的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。用官方的话来说，即给定一个训练数据集，对于新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例多数属于某个类，就把该输入实例分类到这个类中。

1.2.2 朴素贝叶斯算法

朴素贝叶斯分类是以贝叶斯定理为基础（贝叶斯决策理论的核心思想是：选择具有最高概率的决策）且假设特征条件之间相互独立的方法。先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入 $X$ 求出使得后验概率最大的输出 $Y$ 。

1.2.3 支持向量机

支持向量机(SVM)是按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

1.2.4 决策树

如图所示就是一个决策树：

在这里插入图片描述

长方形代表判断模块
椭圆代表终止模块，表示已经得出结论，可以终止运行。

在构建决策树的时候，我们首先要解决的问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。

2. 无监督学习

无监督学习：给定某些特征但不给定因变量，建模的目的是学习数据本身的结构和关系。*如：我们给定某电商用户的基本信息和消费记录，通过观察数据中的哪些类型的用户彼此间的行为和属性类似，形成一个客群。*在这里，我们本身是不知道哪些用户属于哪些客群，即没有给定因变量。

我们可以使用python中的sklearn库来生成符合自身需求的数据集：

在这里插入图片描述

在无监督学习中同样有两种分类，聚类和密度估计：

聚类：将数据集合分成由类似的对象组成的多个类的过程。
- 有关的聚类算法：K-均值、DBSCAN。
密度估计：将寻找描述数据统计值的过程。
- 有关的密度估计算法：最大期望算法。

2.1 聚类

2.1.1 K-均值

K均值聚类算法是一种迭代求解的聚类分析算法。步骤：预先将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离他最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这过程将不断重复直到满足某个终止条件。

2.1.2 DBSCAN

DBSCAB是一个比较有代表性的基于密度的聚类算法。它讲簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

2.2 密度估计

2.2.1 最大期望算法

最大期望算法(EM)是一类通过迭代进行极大似然估计的优化算法。EM算法的标准计算框架由E步和M步交替组成，算法的收敛性可以确保迭代至少逼近局部最大值 。

通常为了更好的表示内容，会对数据形式作出如下约定：

第i个样本： $x_i=(x_{i1},x_{i2},...,x_{ip},y_i)^T,i=1,2,...,N$
因变量： $y=(y_1,y_2,...,y_N)^T$
第k个特征： $x^{(k)}=(x_{1k},x_{2k},...,x_{Nk})^T$
特征矩阵： $X=(x_1,x_2,...,x_N)^T$

DreamStar_w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale第23期组队集成学习上-Task1

Datawhale第23期组队集成学习上-Task1机器学习的三大主要任务机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。数据通常由一组向量组成，这组向量中的每个向量都是一个样本，一般用xix_ixi来表示一个样本，而其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N，共有N个样本。每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi=(xi
复制链接

扫一扫