![](https://img-blog.csdnimg.cn/20190927151026427.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习笔记
文章平均质量分 85
记录自己的学习笔记
荼靡~
我爱学习,学习不爱我,,,
展开
-
线性回归模型求解
(欧氏距离)=wmin∣∣y−Xw∣∣2(L2范式)在这个平方结果下,我们的y和y^分别是我们的真实标签和预测值,这个损失函数实在计算我们的真实标 签和预测值之间的距离。这个损失函数衡量了我们构造的模型的预测结果和真实标签的差异,即差异越小越好。所以我们的求解目标就可以转化为minw∣∣y−Xw∣∣2\begin{aligned} \min_w||y-Xw||_2 \end{aligned} wmin∣∣y−Xw∣∣2σ1e−2σ2(x−u)2(2)误差ϵ=原创 2022-11-29 17:05:17 · 1170 阅读 · 1 评论 -
机器学习之归一化
θαxjiz(θj)yiθj:=θj−α∗∂θj∂Loss(θ):=θj−α∗(z(θj)−yi)∗xji对参数求偏导【求梯度】如下:θ1θ2:=θ1−α∗(z(θ1)−yi)∗x1i:=θ2−α∗(z(θ2)−yi)∗x2i。原创 2022-11-29 12:12:30 · 2479 阅读 · 0 评论 -
分类与回归梯度下降公式推导
∂θ∂J(θ)=∂h∂J(h)∗∂z∂h(z)∗∂θ∂z(θ)z(θ)=θTx∂θ∂z(θ)=∂θ∂θTx=xh(z)=1+e−z1∂z∂h(z)=∂z∂(1+e−z1)=(1+e−z)20−∂(1+e−z)。原创 2022-11-28 11:54:54 · 1283 阅读 · 0 评论 -
聚类算法模型评价指标
如果一个簇中的大多数样本具有较高的轮廓系数,则簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,即聚类效果最好。如果许多样本点具有低轮廓系数甚至负数,则聚类效果不好,聚类的超参数k可能设定的太大或太小。轮廓系数越接近于1越好,负数则表示聚类效果非常差。但是我们不知道,一个较小的。计算容易受到特征的数目影响,数据维度很大时,的计算量会爆炸,不适合用来一次次评估模型。会越来越小,但不代表模型的效果越来越好。有没有达到模型的极限,能否继续提高。会受到超参数k的影响,随着k越大,首先,它不是有界的,只知道。原创 2022-11-09 14:53:47 · 897 阅读 · 0 评论 -
无监督学习之DBSCAN算法
超参数较少, 两个参数就够了。擅长找到离群点(检测任务)可以发现任意形状的簇。原创 2022-11-09 10:33:59 · 527 阅读 · 0 评论 -
机器学习之偏差与方差的区别
【代码】机器学习之偏差与方差的区别。原创 2022-11-08 14:23:26 · 427 阅读 · 0 评论 -
神经网络常见激活函数求导
sigmoid(x)=1+e−x1sigmoid′(x)=(1+e−x1)′=(1+e−x)20−(1+e−x)′=(1+e−x)2e−x=(1+e−x)(1+e−x)1+e−x−1=(1+e−x)1+e−x−1.(1+e−x)1=[1。原创 2022-11-07 16:47:13 · 769 阅读 · 0 评论 -
回归模型的评价指标
但这样的拟合结果不是一个好结果,因为一旦新样本是处于拟合曲线的后半段的,预测结果必然会有巨大偏差。所以,我们希望找到新的指标,除了判断预测的 数值是否正确之外,还能够判断我们的模型是否拟合了足够多的,数值之外的信息。如果方差越大,代表数据上的信息量越多,而这个信息量(模型潜在的规律)不仅包括了数值的大小,还包括了我们希望模型捕捉的那些规律。分母其实可以表示称为样本的潜在规律,分子为模型的误差(损失),那么样本数据潜在的规律是不变的,则误差越小则分子分母表达式返回的结果越小,则r2越接近1.原创 2022-06-14 15:15:36 · 2930 阅读 · 38 评论 -
特征工程之特征值的预处理
对数值型数据进行处理预处理就是用来实现无量钢化的方式无量钢化:在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据"无量纲化"例如:梯度和矩阵为核心的算法中;逻辑回归,支持向量机,神经网络中无量钢化可以加快求解速度;在距离类模型,譬如K近邻,K-Means聚类中,无量钢化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成的影响决策树和树的集成算法,对决策树不需要无量钢化。...原创 2022-06-14 14:19:06 · 330 阅读 · 15 评论 -
特征筛选【IV和WOE】
表示该组中的正例占负例样本的比例,表示整体的正例占负例样本的比例例子结果的正负值分析,根据ln函数的特性,当这个组中响应样本的比例比总体的响应比例小时为负数,相等时为0,大于时为整数把这个变量的所有分组的值的绝对值加起来,这个可以在一定程度上表示这个变量的预测能力,但是一般不会这么做,因为对于分组中的样本数量相差悬殊的场景,值可能不能很好的表示出这个变量的预测能力,一边会用到另一个值:IV值。IV在计算的时候,比值多考虑了一层该变量下该分组占该变量下所有样本的比例IV值的计算公式在WOE的基础上多乘了一个原创 2022-06-14 14:14:44 · 1226 阅读 · 14 评论 -
样本类别分布不均衡处理
增加分类中少数类样本的数量来实现样本均衡算法原理示例3.2 欠抽样(under-sampling)欠抽样:通过减少分类中多数类样本的数量来实现样本均衡原创 2022-06-14 14:02:27 · 481 阅读 · 2 评论 -
特征工程之特征选择
原理:这是通过特征本身的方差来筛选特征的类;一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有作用,所以无论接下来特征工程要做什么,都要优先消除方差为0或方差较低的特征API示例如果将方差为0或方差极低的特征取出后,剩余特征还有很多且模型的效果没有显著提升,则可以用方差将特征选择【一步到位】。留下一半的特征,那可以设定一个让特征总数减半的方差阈值,即找到特征方差的中位数,将中位数作为参数threshol原创 2022-06-14 13:56:56 · 94 阅读 · 0 评论 -
无监督学习之层次聚类算法
层次聚类(Hierarchical Clustering)属于聚类算法,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。基于层次的聚类算法(Hierarchical Clustering)可以是凝聚的(Agglomerative)或者分裂的(Divisive),取决于层次的划分是“自底向上”还是“自顶向下”。原创 2022-02-14 12:45:02 · 482 阅读 · 0 评论 -
机器学习总结笔记
机器学习总结1.分类模型1.1KNN算法k-邻近算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN)超参数(n_neighbors=k)APIfrom sklearn.neighbors import KNeighborsClassifierknn=KNeighborsClassifier(n_neighbors=6)knn.fit(x_train,y_train)寻找最优值【学习曲线&交叉验证】from sklearn.原创 2022-02-10 10:42:55 · 1413 阅读 · 0 评论 -
数据探索大致流程
在拿到数据后,首先要进行的是数据探索分析(),它可以有效的帮助我们熟悉数据集,了解数据集。初步分析变量间的相互关系以及变量与预测值之间的关系,并且对数据进行初步处理,如:数据的异常和缺失处理等,以便使数据集的结构和特征让接下来的预测问题更加可靠数据探索分析还可以获得有关数据清理的宝贵灵感(缺失值处理,特征降维…)获得特征工程的启发获得对数据集的感性认识意义数据决定了问题能够被解决的最大上限,而模型只决定如何逼近这个上限。原创 2022-02-07 21:41:18 · 1920 阅读 · 0 评论 -
无监督学习之Kmeans算法
追求的是,求解能够让簇内平方和最小化的质心。在质心不断变化不断迭代的过程中,整体平方和是越来越小的,当整体平方和最小的时候,质心就不再发生变化了,即求解问题,变成了最优化问题。拿到一个数据集,我们希望能够通过绘图先观察一下这个数据集的数据分布,以此来为我们聚类时输入的n_clusters做一个参考,自己创建一个数据集。距离的衡量【常用欧几里得距离和余弦相似度(先标准化)】"【差异:由样本点到其所在簇的质心的距离来衡量】同一个簇,所有样本点到质心的距离之和。,自己创建的,有标签。原创 2022-02-07 11:58:00 · 2041 阅读 · 0 评论 -
支持向量机SVM算法
支持向量机(SVM,也称支持向量网络),是机器学习中获得更关注最多的算法没有之一从实际应用看从学术角度看。原创 2022-02-06 21:05:18 · 387 阅读 · 0 评论 -
lightGBM算法
微软出品优点:对xgboost进行了优化fit参数eval_setverbose=30重要属性重要模型参数subsamplegbdt其他参数。原创 2022-02-06 16:51:34 · 1327 阅读 · 0 评论 -
xgboost算法
xgboost。原创 2022-02-06 15:52:59 · 1483 阅读 · 0 评论 -
随机森林算法
随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,在分类和回归表现出非常惊人的性能,因此,随机森林被誉为"代表集成学习技术水平的方法"原创 2022-02-06 14:34:15 · 21662 阅读 · 0 评论 -
集成学习算法
方法是指训练一个模型用于组合其他各个模型,首先我们先训练多个不同的模型,然后把之前训练的各个模型的输出来训练一个模型,以得到一个最终的输出。如下,现在整个训练集上通过有放回抽样得到各个训练集合,得到一系列分类模型,然后将输出用于训练第二层分类器。主要思想是将学习器组成一个强学习器。,它是一种有放回的抽样方法。原创 2022-02-06 11:07:46 · 308 阅读 · 0 评论 -
决策树算法
增益比例是我们决定对哪一列进行分支的标准,我们分支的是数字最大的那一列,本质是信息增益最大,分支度有较小的列(也就是纯度提升很快,但又不是因为把类别分特别细来提升的那些特征),IV越大,即某一列的分类水平越多,Gain ratio实现的惩罚比例越大,我们希望GR越大越好。IV可作为惩罚项带入子节点的信息熵计算中,所以IV值会随着叶子结点上样本量的变小而逐渐变大,就是说一个特征中如果标签分类太多,每个叶子上的IV值就会非常大,树的分值就会越细。信息论中提出信息量的值会随着更多有用的信息的出现而降低。原创 2022-02-06 10:18:20 · 1892 阅读 · 0 评论 -
分类算法模型的评价标准
如果对一个事物进行好坏的评价,一定是在指定场景下,使用符合该场景相关的评价标准对其进行好坏的评价分类模型的评价有如下几种方式。原创 2022-02-05 14:34:09 · 2563 阅读 · 0 评论 -
逻辑回归模型
逻辑回归,是一种名为"回归"的线性分类器,其本质是由线型回归变化而来,一种广泛使用分类问题中的广义回归算法。原创 2022-02-05 10:56:31 · 1294 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯1.引入我们要确定一件事,算法得出的结论,永远不是100%确定,更多的是判断出了一种"样本的标签更可能是某类的可能性",而非一种"确定".我们通过模型算法的某些规定,来强行让算法为我们返回一个固定的分类结果,在很多时候,我们也希望能够理解算法判断出结果的可能性概率,例如:文章分类,希望可以得出该文章可以分到财经,体育,社会这几种不同类别的概率,而不是返回一个分类结果我们都希望使用真正的概率来衡量可能性,即有礼真正的概率算法朴素贝叶斯朴素贝叶斯:是一种直接衡量标签和数据之间的概率关系的有监原创 2022-02-04 22:02:18 · 629 阅读 · 0 评论 -
过拟合与欠拟合
一个在训练数据上不能获得很好的拟合,在训练集数据以外的数据集上也不能很好的拟合数据,此时认为这个假设出现了欠拟合的现象(模型过于简单)原因:模型学习到样本的特征太少解决:增加样本的特征数量(多项式回归)一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据以外的数据集上却不能很好的拟合数据,此时认为这个假设出现了过拟合现象(模型过于复杂)原因:原始特征过多,存在一些嘈杂特征解决:进行特征选择,消除关联性大的特征(难做);正则化之邻回归。原创 2022-02-04 19:36:55 · 2014 阅读 · 0 评论 -
线性回归模型
回归问题的判定目标值是连续型数据线型回归的作用就是找出特征和目标之间存在的某种趋势。在二维平面中,该趋势用一条直线来表示回归处理的问题为预测预测房价预测销售额回归算法预测出来的结果就是经过相关的算法计算出来的结果每一个特征值需要一个权重占比,权重确定之后,就可以得到最终的计算结果,即预测结果。原创 2022-02-02 17:07:56 · 1352 阅读 · 0 评论 -
KNN分类模型
Scikit中提取带K-Fold接口的交叉验证接口sklearn.model_selection.cross_validate,但是该接口没有数据shuffle功能,所以一般结合Kfold一起使用。如果Train数据在分组前已经经过了shuffle处理,比如使用train_test_split分组,那就可以直接使用cross_val_score接口。k值的作用【选择样本数据集中前K个的数据,出现次数最多的分类,作为新(预测)数据的分类】使用不同的测试集,重复2,3步骤。交叉验证在knn算法的基本使用。原创 2022-02-01 21:06:34 · 2257 阅读 · 2 评论 -
机器学习基础
模型一定要经过样本数据对其进行训练,才可以对未知数据进行预测。数据拆分案例【鸢尾花数据集拆分】原创 2022-02-01 21:03:30 · 1093 阅读 · 0 评论 -
特征工程概述
示例代码sparse矩阵的理解示例代码2.2.2 文本特征提取作用:对文本数据进行特征值化示例代码中文文本特征提取【对有标点符号的中文文本进行特征提取】中文文本特征提取【对有标点符合且有空格分隔的中文文本进行特征提取】【注意:单个汉字不统计】目前只可以对有标点符号和用分隔符对应的文本进行特征提取,满足不了需求【在自然语言处理中,我们是需要将一段中文文本中相关的词语,成语,形容词…都要进行提取的】对中文文章进行分词处理使用2.3onhot编码spar原创 2022-01-31 15:05:13 · 1014 阅读 · 0 评论 -
机器学习概述
模型模型的作用样本数据模型的分类原创 2022-01-31 10:20:49 · 117 阅读 · 0 评论