parc_de_seaux-CSDN博客

原创机器学习小组-SVM

基本概念将最优决策边界向上&下平移，在遇到第一个点时停下来，这个点被称为支撑向量Support Vector；支撑向量到决策边界的距离是d；这两条平移后的直线的间隔（2d）被称为最大间隔Margin。支撑向量就是支撑着两条平移边界的点，我们只需要重点研究这几个支撑向量即可，这也是SVM名称的由来；Margin就是分界面可以移动的范围，范围越大表示容错能力越强。所以我们可以看到，所谓...

2020-05-01 10:22:14 487

原创机器学习小组-主成分分析

基本概念PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。二维映射为一维：三维映射为二维：当数据集不同维度上的方差分布不均匀的时候，PCA最有用。降维后，整体和原样本的分布并没有多大的差距，点和点之间的距离更大了，区分度也更加明显。一般会使用方差（Variance）来定义样本之间的间距:基本步骤对于...

2020-05-01 10:01:30 224

基本概念决策树是一种常见的机器学习算法，它是类似流程图的结构，其中每个内部节点表示一个测试功能，即类似做出决策的过程（动作），每个叶节点都表示一个类标签，即在计算所有特征之后做出的决定（结果）。决策树表示给定特征条件下，类的条件概率分布，这个条件概率分布表示在特征空间的划分上，将特征空间根据各个特征值不断进行划分，就将特征空间分为了多个不相交的单元，在每个单元定义了一个类的概率分布，这样，这条...

2020-04-19 16:54:30 157

原创机器学习小组-逻辑回归

逻辑回归的概念将样本的特征和样本发生的概率联系起来，即，预测的是样本发生的概率是多少。由于概率是一个数，因此被叫做“逻辑回归”。假设有自变量集合X，这些参数表示这种特征，决定购买行为对客户的效用，包括正效用y*和负效用y~。我们将客户的购买行为记为y，其中y=1表示客户购买理财产品；y=0表示客户没有购买。假设正负效用函数与自变量特征参数成线性相关，用正效用减去负效用的解是否大于0作为分类...

2020-04-12 16:36:04 237

原创机器学习小组-概念补充

多元线性回归研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归（Polynomial Regression）。多项式回归是线性回归模型的一种，其回归函数关于回归系数是线性的。其中自变量x和因变量y之间的关系被建模为n次多项式。多项式回归的思路是：在线性回归的基础上，增加一个特征X^2，即对于X中的每个数据进行平方。# 创建一个新的特征(X**2).shape# 凭...

2020-04-04 21:10:19 226

原创机器学习小组-梯度下降

梯度下降算法基本概念损失函数包含了若干个位置的模型参数，我们就是要找到使损失函数尽可能小的参数未知模型参数。简单线性回归使用最小二乘法来求损失函数的最小值。在绝大多数的情况下，损失函数是很复杂的（比如逻辑回归），根本无法得到参数估计值的表达式。因此需要一种对大多数函数都适用的方法。这就引出了“梯度算法”。梯度下降(Gradient Descent, GD)优化算法，其作用是用来对原始模型的损...

2020-03-29 12:04:11 86

原创机器学习小组-线性回归

简单线性回归基本概念分类(Classification)，即label为离散的类别型(categorical variable)，如：颜色类别、手机品牌、是否患病等。回归(regression)，即label为连续数值型(continuous numerical variable)，如：房价、股票价格、降雨量等。简单线性回归，只有一个样本特征，即只有一个自变量；方程是线性的；回归是指用方程...

2020-03-29 11:18:05 146

原创机器学习小组- 特征工程1

归一化把所有的数据都映射到同一个尺度（量纲）上。最值归一化(normalization)：把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0～100分、灰度0～255)，受outlier的影响比较大。均值方差归一化(standardization)：把所有数据归一到均值为0方差为1的分布中。适用于数据中没有明显的边界，有可能存在极端数据值的情况。特征...

2020-03-15 13:06:31 211

原创机器学习小组-分类模型准确率评价指标

对KNN模型分类准确度accuracy的认识基本概念将原始数据中的一部分作为训练数据、另一部分作为测试数据，随机划分（08：02）。使用训练数据训练模型，再用测试数据看好坏，用accuracy（分类准确度）来衡量。accuracy_score：函数计算分类准确率，返回被正确分类的样本比例（default）或者是数量（normalize=False）在多标签分类问题中，该函数返回子集的准确率...

2020-03-08 21:13:32 885

原创机器学习小组-KNN算法学习

基本概念KNN(K-NearestNeighbor) K近邻算法，分类算法中最浅显易懂的一种有监督学习算法。分类是根据距离最近的的K个点的类别来估计当前点的类别，因此距离的计算方式和K值的选择将影响分类结果。在参数确定后，临近K个点中出现类别最多的类别就是当前点的预测类型。K值一般为奇数，通过交叉验证得到效果最好的K值，小于训练数样本的平方根。距离计算方式一般选用欧式距离。算法流程计...

2020-03-01 17:47:53 184

parc_de_seaux的博客