机器学习
文章平均质量分 90
从基础学习数据分析,数据可视化,进而了解弄懂机器学习内容
熊️兔
还在学习中哦~~~
展开
-
机器学习——集成学习算法(Adaboost、随机森林)
Bagging + 决策树 = 随机森林AdaBoost + 决策树 = boosting原创 2022-06-11 18:25:51 · 5807 阅读 · 1 评论 -
机器学习——模型评估、选择与验证
选择 评估 验证训练集与测试集过(欠)拟合偏差与方差训练集与测试集为了使机器学习训练的模型有效,可以用于实际情况中,我们不仅需要用训练集来对模型进行训练,还需要用测试集对模型进行测试以验证其可靠高效性。即训练集用来构建机器学习模型,测试集用来评估模型性能。通常情况下我们都是将数据分为百分之八十和百分之二十,多的那部分用来做训练集,少的那部分用来做测试集。过(欠)拟合① 欠拟合:模型在训练集上误差很高;原因:模型过于简单,没有很好的捕捉到数据特征,不能很好的拟合数据。② 过拟合:在训练集上误差原创 2022-04-01 19:53:33 · 6243 阅读 · 0 评论 -
机器学习—— 朴素贝叶斯分类器
朴素贝叶斯分类器简述条件概率贝叶斯公式拉普拉斯平滑文本向量化MultinomialNB条件概率在进入朴素贝叶斯分类算法的学习之前,我们需要先了解一些概率论的知识,首先来看看条件概率吧。条件概率是指某一事件A发生的可能性,表示P(A)。而条件概率指的是某一事件A已经发生了条件下,另一事件B发生的可能性,表示为P(B|A)。怎么计算条件概率呢?设A,B是两个独立事件,且P(A)>0,称P(B|A)=P(AB)/P(A)为在事件A发生的条件下,事件B发生的条件概率。P(AB)表示事件A和B同时发生的原创 2022-03-30 19:44:13 · 7470 阅读 · 0 评论 -
机器学习——支持向量机
支持向量机简述线性可分支持向量机泛化性基本思想间隔与向量机线性可分支持向量机泛化性先来了解一下什么叫泛化性?我们要求一条直线不仅要在训练集(已知的数据)上能够很好的将数据分类好,还得在测试集(未知的数据)上也能很好的完成。那现在我们来看看图中的两条直线,哪一条的泛化性更好呢?假设经过训练,我们得到黄色这条决策边界来区分我们的数据,这个时候出现一个黑色的数据点,现在对它进行分类,你认为它会被分到哪一类呢?根据图像它会被分到红色这类中,但是我们可以看出它离蓝色点相较于离红色点来说近得多,因此它应原创 2022-03-30 15:45:48 · 3616 阅读 · 0 评论 -
机器学习——决策树
决策树的简述决策谁概述决策谁概述同样先来看看下面的问题吧。现在我要在网上买一件衣服,我会先去看看哪一个码的衣服才合身,才决定是否购买。注意看第一张图片,放在代码的世界中是否觉得它的构造有点熟悉呢?——树结构。现在这棵树在帮助我对是否买这件衣服做决策,因此我们现在就可以把它叫做一颗决策树。概念决策树是一种可以用于分类与回归的机器学习算法,但主要用于分类。用于分类的决策树是一种描述对实例进行分类的树形结构。决策树由结点和边组成,其中结点分为内部结点和叶子结点,内部结点表示一个特征或者属性,叶子结点表原创 2022-03-22 19:33:56 · 1491 阅读 · 0 评论 -
OvO多分类策略简述
OvO多分类策略(one VS one)什么是OvO多分类问题原创 2022-03-21 15:19:05 · 3588 阅读 · 0 评论 -
机器学习——逻辑回归
逻辑回归的简述逻辑回归概述sigmod函数梯度下降逻辑回归概述当一看到“回归”这两个字,可能会认为逻辑回归是一种解决回归问题的算法,然而逻辑回归是通过回归的思想来解决二分类问题的算法。(不是回归,是二分类算法;机器学习算法一般都是先选择逻辑回归再用复杂的)。逻辑回归是将样本特征和样本所属类别的概率联系在一起,假设现在已经训练好了一个逻辑回归的模型为 f(x) ,模型的输出是样本 x 的标签是 1 的概率,则该模型可以表示若得到了样本 x 属于标签 1 的概率后,很自然的就能想到当0.5 时 x原创 2022-03-21 10:01:05 · 933 阅读 · 0 评论 -
机器学习——线性回归基础
线性回归简单的线性回归概述一元线性回归多元线性回归损失函数平方损失函数绝对损失函数对数损失函数0-1损失函数方程解评估性能指标(来源:[头歌](https://www.educoder.net/))简单的线性回归概述在生活中,我们常常能碰到这么一种情况,一个变量会跟着另一个变量的变化而变化,如圆的面积与半径的关系,当圆的半径确定了,那么面积也就确定了。还有一种情况就是,两个变量之间虽然存在某种关系,但又会因为某些因素而影响着。例如:人的高考成绩=人每分钟的可以拿到的分数*时长+临场发挥程度,但是每个人原创 2022-03-20 11:52:32 · 2423 阅读 · 0 评论 -
机器学习——数据预处理
数据预处理数据标准化为什么要进行标准化处理z-score标准化Min-max标准化MaxAbs标准化非线性转换映射到均匀分布映射到高斯分布归一化离散编码生成多项式数据标准化为什么要进行标准化处理为什么要对数据进行标准化?先来看看这两组数array1=[0.02,0.01,0.05,0.06]array2=[10000,15000,20000,11000]现在若对数据进行处理,那会使结果不太准确,会发现array2数据的量级要比array1的大很多,因此array2对目标变量的影响会比arr原创 2022-03-19 20:54:01 · 1411 阅读 · 0 评论 -
聚类分析(简单的代码实现)
在之前的文章中了解一些基本的聚类分析知识后,现在我们来看看用代码怎么实现它吧。(在jupyter notebook中实现;其中使用的数据集均从UCI上下载)层次聚类1、需要导入pandas库,用于读取文件。(这里使用的是有关心脏病的数据集,现在取患者年龄和对应的静息血压两列进行分析)import pandas as pd#这两行表示在jupyter中显示所有行和列pd.set_option("display.max_rows",None)pd.set_option("display.max原创 2022-03-02 17:21:56 · 8529 阅读 · 3 评论 -
聚类分析简述
聚类分析简述聚类分析概述层次聚类K-Means算法DBSCAN算法聚类分析概述聚类分析是一种无监督学习(无监督学习:机器学习中的一种学习方式,没有明确目的的训练方式,无法提前知道结果是什么;数据不需要标签标记),用于对未知类别的样本进行划分将它们按照一定的规则划分成若干个类簇,把相似(相关的)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而分析样本之间内在的性质以及相互之间的联系规律。它是一种思想,并不是一种方法。层次聚类层次聚类是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵原创 2022-02-26 18:08:22 · 16088 阅读 · 1 评论