sklearn
文章平均质量分 74
qq_53982314
这个作者很懒,什么都没留下…
展开
-
第七章:支持向量机SVM:1. sklearn.svm.SVC 1.1 代码 2.核函数 3.软间隔
这个时候,我们的决策边界就不是单纯地寻求最大边际了,因为对于软间隔地数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个"最大边际”与”被分错的样本数量”之间的平衡。参数C用于权衡“训练样本的正确分类“与”决策函数的边际最大化“两个不可同时完成的目标,希望找出一个平衡点来让模型的效果最佳。例如,svm将两类分开。这里的w,x均为向量。主要是寻找决策边界。将平面分开,分出的点。原创 2023-06-19 17:16:35 · 305 阅读 · 0 评论 -
第六章、聚类算法K-means:一、k-means :无监督分类 1.sklearn中的聚类算法 1.1 sklearn.cluster.K-means 1.2 超参数n_clusters=inert
聚类是一种无监督学习方法,其目标是将数据样本分成不同的组,使得同一组内的样本彼此相似,而不同组之间的样本差异较大。分类是一种有监督学习方法,它使用已有的标签或类别信息来训练模型,并预测新的未知数据点所属的类别。除了轮廓系数是最常用的,还有卡林斯基-哈拉巴斯指数(Calinski-Harabaz ndex,简称CHI,也被称为方差比标准),戴维斯-布尔丁指数 (Davies-Bouldin) 以及权变阵(Contingency Matrix) 可以使用。n表示特征数目,例如,二维数据的x,y,则n=2;原创 2023-06-17 22:14:04 · 586 阅读 · 0 评论 -
第五章、逻辑回归:一、为什么需要逻辑回归? 1. sklearn中的逻辑回归 1.1 LogisticRegression
我们使用“损失函数"这个评估指标,**来衡量参数p的优劣,即这一组参数能否使模型在训练集上表现优异。**如果用一组参数建模后,模型在训练集上表现良好,那我们就说模型表现的规律与训练集数据的规律一致,拟合过程中的损失很小,损失函数的值很小,这一组参数就优秀;相反,如果模型在训练集上表现糟糕,损失函数就会很大,模型就训练不足,效果较差,这一组参数也就比较差。即是说,我们在求解参数p时,追求损失函数最小,让模型在训练数据上的拟合效果最优,即预测准确率尽量靠近100%横坐标是c的值,由图可得,在该图l2较好。原创 2023-06-17 16:14:04 · 216 阅读 · 0 评论 -
第四章:降维处理:pca和svd 一、pca 1.pca降维是如何实现的? 2.代码 二、SVD 1.svd 三、降维和特征选择都是特征工程技术,有什么区别?
而降维算法,是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。通常来说,**在新的特征矩阵生成之前,我们无法知晓降维算法们都建立了怎样的新特征向量,新特征矩阵生成之后也不具有可读性,**我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来,新特征虽然带有原始数据的信息,却已经不是原数据上代表着的含义了。PCA和SVD是两种不同的降维算法,但他们都遵从上面的过程来实现降维,只是两种算法中矩阵分解的方法不同,信息量的衡量指标不同罢了。原创 2023-06-16 15:42:37 · 147 阅读 · 0 评论 -
第三章:数据预处理和特征工程:一、预处理 1.数据无量纲化 1.1 归一化 1.2 数据标准化 2.缺失值的处理 3.处理分类型特征 独热编码 4.处理连续型特征 分为多个
normalization :数据减去最小值除以最大差异。不止最后一列可以改变,其他非数字都可以改变。数据的无量纲化包括中心化、缩放处理。如何用numpy实现归一化?40岁以上是1,40以下是0。例如,老人小孩0,中年人1。代码如下:(3种方式)原创 2023-06-15 22:07:41 · 400 阅读 · 2 评论 -
第二章:随机森林: 一、集成算法 1.随机数建模基本流程 2.重要参数 3.建模
多个评估器的建模结果汇总得到比单个模型更好的回归或者分类表现。组成集成评估器的模型有三种:装袋bagging、提升boosting、stacking。提升法的代表模型:adaboost随机森林的基分类器就是决策树。如何分支:分类树的不纯度:gini系数或者是信息熵,回归树的不纯度:MSE均方差。原创 2023-06-13 15:06:40 · 138 阅读 · 0 评论 -
决策树 一.分类树 1. 分类树参数 2.剪枝
查看属性的重要度(feature)。使得决策树有更好的泛化性。原创 2023-06-13 13:05:11 · 73 阅读 · 0 评论