sklearn
文章平均质量分 93
示木007
这个作者很懒,什么都没留下…
展开
-
机器学习:聚类算法
1. 聚类概念 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。 在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。 聚类算法和分类算法最大的区别是:聚类是无监督学习算法,而分类算法是监督学习算法。2. 聚类算法的实现流程随机选择 K 个样本点作为初始聚类中心计算每个样本到 K 个中心的距离,选择最近的聚类中心点作为标记类别根据每个类别中的样本点,重新计算出新的聚类中心点(平均原创 2021-07-20 07:52:41 · 1197 阅读 · 0 评论 -
机器学习:集成学习之Bagging
1 集成学习基本介绍1. 工作原理生成多个分类器或者模型,各自独立的学习和做出预测整合多个学习器预测,最终输出预测 集成学习中,每一个学习器叫做弱学习器(基学习器),这些弱学习器共同组成的最终的强学习器。集成学习方法能够带来什么样的好处呢?可以提升单个分类器的预测准确性。例如:单个学习器的性能上不来了,我们可以通过整合多个学习器来提升单个学习器的性能上限。可以避免模型选择问题。例如:我们训练出的多个模型,要选择哪个呢?干脆我们就不选,将多个模型整合到一起使用。关于构建一个集成学习原创 2021-07-19 16:41:01 · 1486 阅读 · 0 评论 -
机器学习:集成学习之boosting
1.Boosting介绍Boosting体现了提升的思想:每一个训练器重点关注前一个训练器不足的地方进行训练通过加权投票的方法得出最后的预测结果2.Boosting和Bagging对比区别一:数据方面Boosting:使用的是全部训练样本,根据前一个模型的学习结果调整数据的重要性Bagging:对数据进行采样训练区别二:集成策略Boosting:对所有的弱学习器预测的结果进行平权投票,票数较多的最终的强学习器的预测结果。Bagging:每一个后边的弱学习器对前一个弱学习器进行原创 2021-07-19 13:01:18 · 4025 阅读 · 0 评论 -
机器学习:线性回归之损失函数、正规方程、梯度下降、过拟合和欠拟合、正则化
1.线性回归1.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归通用公式:h(w)=w1x1+w2x2+⋯+wnxn+b=WTX+bh(w)=w_1x_1+w_2x_2+\cdots+w_nx_n+b=W^TX+bh(w)=w1x1+w2x2+⋯+wnxn+b=WTX+b其中W、X可以理解为矩阵原创 2021-07-16 13:43:10 · 4951 阅读 · 0 评论 -
机器学习:逻辑回归之混淆矩阵、精度、召回、F1-score、ROC曲线、AUC指标分析
1、肿瘤预测案例数据描述(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。(2)包含16个缺失值,用”?”标出。(3)2 表示良性、4 表示恶性代码:import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScal原创 2021-07-14 13:55:57 · 2468 阅读 · 0 评论 -
机器学习:决策树之信息熵、信息增益、信息增益率、基尼指数分析
信息熵信息理论从信息的完整性描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。从信息的有序性描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。信息熵理解信息熵是一个变量包含信息多少的度量方式信息熵的值越大,则认为该变量包含的信息量就大信息熵越大,表示包含的信息种类就越多,信息量就越大,信息越混乱分散,纯度就越低信息熵只和包含的信息种类原创 2021-07-15 21:42:22 · 7434 阅读 · 0 评论