机器/深度学习
文章平均质量分 77
Satisfying
#自律女孩养成记#
#立刻行动派#
外表平静似水,内心坚定如刚。
展开
-
【20220118】【机器/深度学习】线性回归中的最小二乘法(LR)
一、什么是最小二乘法?最小二乘法是回归问题中的一种数学优化工具,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得位置的数据,使得求得的数据与真值之间误差的平方和最小。 (参考:最小二乘法) 最小二乘,广义来说就是机器学习中的平方损失函数: ...原创 2022-01-18 15:31:48 · 4728 阅读 · 0 评论 -
【20211125】【机器/深度学习】异常检测算法——高斯分布模型(从标准高斯分布到多元高斯分布)
该问题源于工作中的某项需求,需要在日常数据中捕获异常状态,高斯分布派上用场喽~一、标准高斯分布(标准正态分布)概率密度函数为: f(x) ~ N(0, 1),表示该分布均值为 0,方差为 1。注意:概率密度和为1!二、一元高斯分布的一般形式 概率密度函数为:f(x) ~ N(mu, sigma^2),表示该分布均值为 mu,方差为 sigma^2。概率密度函数曲线的对称轴为 mu,sigm...原创 2021-11-25 20:36:44 · 4398 阅读 · 0 评论 -
【20211123】【机器/深度学习】使用 joblib 保存训练好的模型,并载入模型使用
from sklearn.mixture import GaussianMixtureimport joblib# 训练模型并保存gmm = GaussianMixture(n_components=5, n_init=10)gmm.fit(DataSet)joblib.dump(filename='gmm.model', value=gmm)# 载入模型使用model = joblib.load(filename='gmm.model')y = model.predict(x)..原创 2021-11-23 20:57:30 · 2080 阅读 · 0 评论 -
【20210926】【机器/深度学习】基于 make_blobs 函数库,详解几种 K-Means 算法优化方案,及模型评估
K-Means 算法的主要缺点:算法性能受类别个数 k 值、初始点值、异常点值影响很大。本文针对以上 k-means 算法主要缺点,详解 k-means 算法优化方案。一、make_blobs 函数库 make_blobs() 是 sklearn.datasets 中的一个函数,主要功能是:生成聚类数据集。 主要参数: (1)n_samples:样本数据量,默认值 100; (2)n_features:样本维度,默认.........原创 2021-09-26 19:29:08 · 5178 阅读 · 0 评论 -
【20210924】【机器/深度学习】基于亚洲球队数据,讲解K-Means算法原理和 Python 函数库使用方法
一、问题 下面整理了 2015-2019 年亚洲球队的排名,如下表所示。其中 2019 年国际排名和 2015 年亚洲杯排名均为实际排名。2018 年世界杯中,很多球队没有进入到决赛圈,只有进入到决赛圈的球队才有实际的排名。如果是亚洲区预选赛 12 强的球队,排名会设置为40;如果没有进入到亚洲区预选赛 12 强,球队排名会设置成 50。 数据集:cystanford kmeans实战图片及代码 31804b9 (参考:白话机器学习算法理论+实战之...原创 2021-09-24 18:37:04 · 721 阅读 · 0 评论 -
【20210924】【机器/深度学习】以鸢尾花卉数据集为例,使用K折交叉验证选取KNN算法最优的模型参数实例
''' 功能:使用鸢尾花卉数据集和 K 折交叉验证,选取最优的 KNN 算法参数 k'''# 导包from sklearn import datasetsimport numpy as npimport pandas as pdfrom sklearn import model_selectionfrom sklearn import neighborsimport mathfrom sklearn import metricsimport seaborn as sns.原创 2021-09-24 09:23:13 · 2567 阅读 · 2 评论 -
【20210922】【机器/深度学习】K折交叉验证(k-fold cross validation)
k 折交叉验证原创 2021-09-22 15:33:44 · 10436 阅读 · 0 评论 -
【20210922】【机器/深度学习】KNN (K近邻) 算法详解
一、算法概念 KNN, K-near neighbor,即最近邻算法。它是一种分类算法,算法思想是:一个样本与数据集中的 k 个样本最相似,如果这 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别,即每个样本都可以用它最接近的 k 个邻居来代表。 KNN 算法的关键点有两个:k 值的选择和点距离(通常使用欧氏距离)的计算。 KNN是一种非参的、惰性的算法模型。二、基本流程 第一步:计算已知类别数据集中的点与当前点之间的...原创 2021-09-22 15:09:30 · 8068 阅读 · 0 评论 -
【20210922】【机器/深度学习】机器学习算法分类
一、按学习方式划分1. 监督学习 监督学习是指从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,即特征和标签。数据集中每个样本都有相应的 “正确答案(标签)”,根据这些样本做出预测。所有的分类和回归算法都属于监督学习。回归和分类算法的区别在于输出变量的类型:定量输出称为回归(连续型、数值型变量预测)、定性输出称为分类(离散变量、标称型变量预测)。 输入:有标签 ...原创 2021-09-22 14:02:25 · 928 阅读 · 0 评论 -
【20210914】【机器/深度学习】详解鸢尾花卉数据集,并以此为例介绍决策树模型的保存与调用
一、鸢尾花卉数据集(Iris数据集)1. 数据集介绍 Iris数据集是一种多重变量分析的数据集,数据集包含150个数据样本,分为3类,每类有50个数据,每个数据包含4个属性/特征,分别是:花萼长度、花萼宽度、花瓣长度、花瓣宽度,标签有3个,分别是:Setosa, Versicolour, Virginca。 (参考:IRIS (IRIS数据集))2. 数据集调用和可视化from sklearn.datasets import load_irisfrom m...原创 2021-09-14 18:01:58 · 1884 阅读 · 0 评论 -
【20210914】【机器/深度学习】模型评价指标:精确率、召回率、特异性、敏感性、F1-score、ROC曲线、AUC
一、区分精确率、召回率和特异性、敏感性 在数据科学中,查看精确率和召回率来评估构建的模型是十分常见的。而在医学领域,通常使用特异性和敏感性来评估医学测试。这一点在兆观的论文、以及 xxx院的沟通过程中,也注意到这一点了~ 这些指标有很大的相似之处,但也有些许区别,所以关键在于:不同的领域有不同的评价指标,在给出结果的时候,要考虑对方想要看的指标是什么?或者说,在对方的领域内,权威公认的测试指标是什么?二、各个指标的定义先给出一个混淆矩阵~...原创 2021-09-14 15:46:24 · 5461 阅读 · 0 评论 -
【20210914】【机器/深度学习】一种非线性降维的手段——manifold learning流形学习
一、背景 高维数据不像 2-3 维数据那么容易可视化,它很难通过图表展示数据本身的内部结构。所以为了实现数据集结构的可视化,数据的维度必须通过某种方式降维。二、常用的降维手段 一系列监督或非监督的线性降维框架,如:Principal Component Analysis(PCA, 主成分分析)、Independent Component Analysis(独立成分分析)、Linear Discriminant Analysis(线性判别分析)……这些方法用于多维数据选...原创 2021-09-14 11:29:31 · 542 阅读 · 1 评论 -
【20210911】【机器/深度学习】Cart决策树、lightGBM模型训练阶段小结
一、背景 问题源于工作中的一项分类任务,正负样本比例严重失衡,想使用 lgb 实现二分类算法。二、读取样本集(.mat格式的数据)import scipy.io as scioimport pandas as pddata_dict = scio.loadmat('样本集.mat') # scio.loadmat()读出来的数据是dict格式data_narray = data_dict['data'] # dict转为narray格式data_df = pd.D...原创 2021-09-11 18:00:20 · 1416 阅读 · 0 评论 -
【20210910】【机器/深度学习】lightGBM模型训练中报错:“Cannot set reference after freed raw data“
一、原因在于:lightGBM模型训练完之后,Dataset的数据就会被清空,虽然在变量中它还存在,但实际已经被清空了,所以要再使用的话,需要重新生成!二、补充知识点: lightGBM 模型训练时,输入的数据类型是 Dataset 格式,所以需要用 lgb.Dataset() 先进行格式转换!...原创 2021-09-10 19:18:48 · 1298 阅读 · 0 评论 -
【20210723】【机器/深度学习】“基于特征工程完成对贷款数据集Lending Club的预处理” 学习笔记
学习链接:https://work.datafountain.cn/forum?id=79&type=2&source=1相关知识点:数据预处理特征工程特征工程基本流程python 相关库函数(pandas, numpy 等)在机器学习领域,有这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而...原创 2021-07-23 17:35:17 · 751 阅读 · 0 评论 -
【20210713】【机器/深度学习】Python SVM模型学习笔记
一、处理步骤 (参考:【机器学习】python使用支持向量机SVM) 第一步:导入 svm 模块from sklearn import svm 第二步:导入数据集data = np.loadtxt(filename, dtype=float, delimiter=',', converters=None)# ===== 【loadtxt 库函数常用的参数有:】======# filename:文件路径,例 path='F:/Python_Project/...原创 2021-07-13 15:52:20 · 2612 阅读 · 1 评论 -
【20210610】【机器/深度学习】Python GMM模型学习笔记
import matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from sklearn.mixture import GaussianMixture#产生实验数据from sklearn.datasets.samples_generator import make_blobs # make_blobs是生成聚类使用的数据集X, y_true = make_blobs(n_samples ...原创 2021-06-10 19:14:05 · 797 阅读 · 1 评论