机器学习
文章平均质量分 77
gua_niu123
在孤独的生活里,做好一件事。
展开
-
SVM算法详解
SVM 是一个非常优雅的算法,具有完善的数学理论,虽然如今工业界用到的不多,但还是决定花点时间去写篇文章整理一下。1. 支持向量1.1 线性可分首先我们先来了解下什么是线性可分。在二维空间上,两类点被一条直线完全分开叫做线性可分。严格的数学定义是: 和 是 n 维欧氏空间中的两个点集。如果存在 n 维向量 w 和实数 b,使得所有属于 的点 都有 ,而对于所有属于 的点 则有 ,则我们称 和 线性可分。 1.2 最大间隔超平面从二维扩展到多维空间中时,将 和 完全正确地划分开的 .转载 2021-03-12 23:34:44 · 11127 阅读 · 0 评论 -
朴素贝叶斯分类器 详细解析
1 贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记。1.1 后验概率P{H0|x}是给定观测值x条件下H0出现的概率,统称为后验概率For example:假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?使用转载 2021-03-05 23:42:33 · 1726 阅读 · 0 评论 -
python sklearn库(4)
数据集拆分在得到训练数据集时,通常我们经常会把训练数据进一步拆分成训练集和验证集,这样有助于我们模型参数的选取。train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:X_train,X_test, y_train, y_test = cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)注意:tr转载 2021-03-04 22:57:56 · 308 阅读 · 1 评论 -
python sklearn库(3)
数据预处理数据预处理阶段是机器学习中不可缺少的一环,它会使得数据更加有效的被模型或者评估器识别。下面我们来看一下sklearn中有哪些平时我们常用的函数:StandardScalerMaxAbsScalerMinMaxScalerRobustScalerNormalizer等其他预处理操作对应的有直接的函数使用:scale(),maxabs_scale(),minmax_scale(),robust_scale(),normaizer()sklearn.preprocessing.scale转载 2021-03-03 20:38:16 · 236 阅读 · 1 评论 -
python sklearn库(2)
创建数据集我们除了可以使用sklearn自带的数据集,还可以自己去创建训练样本,具体用法可以参考: https://scikit-learn.org/stable/datasets/ 下面我们拿分类问题的样本生成器举例子:from sklearn.datasets.samples_generator import make_classification X, y = make_classification(n_samples=6, n_features=5, n_informative=2,转载 2021-03-02 22:57:35 · 201 阅读 · 0 评论 -
python sklearn库(1)
sklearn官方文档的内容和结构sklearn官方文档的内容定义:针对经验E和一系列的任务T和一定表现的衡量P,如果随着经验E的积累,针对定义好的任务T可以提高表现P,就说明机器具有学习能力。sklearn官方文档结构由图中,可以看到库的算法主要有四类:分类,回归,聚类,降维。其中:常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集转载 2021-02-01 22:45:19 · 447 阅读 · 1 评论 -
监督学习---线性回归
1.监督学习(supervised learning):在有标记样本上建立机器学习模型数据有标签、一般为回归或分类等任务监督学习三要素:标注数据 => 学习模型 => 损失函数即:标识类别信息的数据=> 如何学习得到映射模型 => 如何对学习结果进行度量(预测值与真实值的差值)分类和回归的区别:分类:要预测的目标函数是离散的;回归:要预测的目标函数是连续的回归:5. 线性回归:y=wx+b(1)何为线性回归:=>m个属性样本=>试图从样本中获得预转载 2021-01-29 22:04:05 · 410 阅读 · 0 评论 -
决策树处理缺失值和连续值
1.连续值的处理方法对于连续属性,不能直接根据连续属性的可取值对节点进行划分,可以使用二分法对连续属性进行划分。对于连续属性a,我们可考察包括 n-1 个元素的候选划分集合(n 个属性值可形成 n-1 个候选点): 利用每个候选点对数据进行划分,得到两个子集,计算信息增益,取最大的信息增益对应作为该属性的信息增益。举例:对于数据集中的属性“密度”,在决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。该属性的候选划分点集合包括16个候选值:T密度 = {0.244,0.2原创 2021-01-27 22:21:50 · 1480 阅读 · 0 评论 -
C4.5和CART决策树对比
前面详细讲解了ID3决策树。现在来聊一聊CART、C4.5决策树:CART与ID3和C4.5相同都由特征选择,树的生成,剪枝组成。但ID3和C4.5用于分类,CART可用于分类与回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布,与ID3和C4.5的决策树所不同的是,ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下可分为3叉。而CART为假设决策树为二叉树,内部结点特征取值为”是”和”否”。左分转载 2021-01-26 22:38:05 · 1628 阅读 · 0 评论 -
经典监督学习算法——决策树
什么是决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。简单的说就是你做出决定的一系列依据,下面的一个例子能帮助我们很好地理解决策树的概念决策树是一种树形结构,其生成过程是每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。通俗的说就是先选取一个对象的一个特征,在这转载 2021-01-23 21:48:44 · 992 阅读 · 0 评论 -
K近邻算法详解
K近邻算法详解KNN简介K最近邻(k-Nearest Neighbor,KNN),是一种常用于分类的算法,是有成熟理论支撑的、较为简单的经典机器学习算法之一。该方法的基本思路是:如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别,则该样本也属于这个类别,即近朱者赤,近墨者黑。显然,对当前待分类样本的分类,需要大量已知分类的样本的支持,因此KNN是一种有监督学习算法。KNN原理上图中,所有样本可以使用一个二维向量表征。图中,蓝色方形样本和红色三角形样本为转载 2021-01-20 22:41:04 · 8393 阅读 · 1 评论 -
监督学习最常见的四种算法
在机器学习中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(Supervised learning)就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。所有的回归算法和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。以下是一些常用的监督型学习方法。转载 2021-01-19 22:15:00 · 9199 阅读 · 1 评论