![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 85
机器学习算法
love1005lin
自律及自由
展开
-
机器学习-李宏毅视频笔记
持续整理中原创 2022-01-11 00:12:38 · 362 阅读 · 0 评论 -
集成学习-Stacking-Python实现
基于前面对Blending集成学习算法的讨论,我们知道:Blending在集成的过程中只会用到验证集的数据,对数据实际上是一个很大的浪费。为了解决这个问题,我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中(Blending文章链接),我们产生验证集的方式是使用分割的方式,产生一组训练集和一组验证集,这让我们联想到交叉验证的方式。顺着这个思路,延伸出了stacking这种模型的方案。1.Stacking简介stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集原创 2021-05-11 20:11:44 · 3797 阅读 · 0 评论 -
集成学习-Blending-Python实现
对于机器学习和深度学习来说,用单模型的效果往往都没有进行模型融合后的效果好。而对模型来说,我们需要选择具有多样性,准确性的模型,对于融合的方式来说也有很多种,比如最简单的取平均或者投票法,较为复杂的就是Blending和Stacking。这一篇主要讲一下blending,下一篇讲解一下stacking,二者都是用了两层的模型。1. Blending简介Blending是一种模型融合的方式,第一层通过将训练集出一部分作为holdout set,然后通过剩下的数据生成模型对holdout set 进行预测,原创 2021-05-11 16:45:03 · 755 阅读 · 1 评论 -
K-近邻算法(KNN)
K-近邻算法(KNN)K nearest neighbour0、导引如何进行电影分类众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似, 而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在原创 2020-10-27 13:55:31 · 193 阅读 · 0 评论 -
Pytorch单机多卡训练
pytorch中单机多卡可以使用DataParallel和DistributedDataParallel 来实现。pytorch官网中推荐使用DistributedDataParallel。两者区别是:DataParallel是单进程多线程控制GPU的实现方式,因此只能在一台机器上使用,而DistributedDataParallel则是多进程控制GPU,除了能实现单机多卡外,也能够实现分布式训练。DataParallel一般会比DistributedDataParallel慢Distributed原创 2021-04-26 21:20:45 · 1005 阅读 · 0 评论 -
机器学习-条件随机场
条件随机场马尔可夫过程定义假设一个随机过程中,tnt_ntn 时刻的状态xnx_nxn的条件发布,只与其前一状态xn−1x_{n-1}xn−1 相关,即:P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1)则将其称为 马尔可夫过程。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I原创 2021-03-28 20:54:18 · 478 阅读 · 0 评论 -
机器学习-特征工程
特征工程传统编程的关注点是代码。在机器学习项目中,关注点变成了特征表示。也就是说,开发者通过添加和改善特征来调整模型。“Garbage in, garbage out”。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。特征工程,顾名思义,是指从原始数据创建特征的过程。将原始数据映射到特征许多机器学习模型都必须将特征表示为实数向量,因为特征值必须与模型权重相乘。图 1. 特征工程将原始数据映射到机器学习特征图 1 左侧表示来自输入数据源的原始.原创 2021-03-28 20:36:39 · 370 阅读 · 0 评论 -
机器学习-逻辑回归
逻辑回归1、逻辑回归与线性回归的联系与区别线性回归解决的是连续变量问题,那么在分类任务中可以用线性回归吗?例如判断是良性肿瘤还是恶性肿瘤,判断是垃圾邮件还是正常邮件,等等……答案是也可以,但是效果不好,见下图:图显示了是否购买玩具和年龄之间的关系,可以用线性回归拟合成一条直线,将购买标注为1,不购买标注为0,拟合后取当0.5值为阈值来划分类别。y^={1,f(x)>0.50,f(x)<0.5\hat y = \begin{cases}1,& f(x)>0.5\\0,原创 2021-03-27 21:30:37 · 141 阅读 · 0 评论 -
机器学习-奇异值分解
文章目录第一章 数学基础1.1 向量和矩阵1.1.1 标量、向量、矩阵、张量之间的联系1.1.2 张量与矩阵的区别1.1.3 矩阵和向量相乘结果1.1.4 向量和矩阵的范数归纳1.1.5 如何判断一个矩阵为正定1.2 导数和偏导数1.2.1 导数偏导计算1.2.2 导数和偏导数有什么区别?1.3 特征值和特征向量1.3.1 特征值分解与特征向量1.3.2 奇异值与特征值有什么关系1.4 概率分布与随机变量1.4.1 机器学习为什么要使用概率1.4.2 变量与随机变量有什么区别1.4.3 随机变量与概率分布的原创 2021-03-24 19:49:09 · 459 阅读 · 1 评论 -
机器学习-Bayes
1. 相关概念生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可夫模型、随机上下文无关文法、朴素贝叶斯分类器、AODE分类器、潜在狄利克雷分配模型、受限玻尔兹曼机举例:要确原创 2021-03-22 21:41:20 · 240 阅读 · 0 评论 -
机器学习-线性模型
线性模型1、线性回归的原理线性回归的一般形式:有数据集{(x1,y1),(x2,y2),...,(xn,yn)}\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}{(x1,y1),(x2,y2),...,(xn,yn)},其中,xi=(xi1;xi2;xi3;...;xid),yi∈Rx_i = (x_{i1};x_{i2};x_{i3};...;x_{id}),y_i\in Rxi=(xi1;xi2;xi3;...;xid),yi∈R其中n表示变量的原创 2021-03-18 21:46:24 · 100 阅读 · 0 评论 -
ROC-AUC图形绘制
AUC举例数据y = [1,1,1,1,1,1,0,0,0,1,1,0,0,1,1,0,0,1,1,0,0]prob = [0.42,0.73,0.55,0.37,0.57,0.70,0.25,0.23,0.46,0.62,0.76,0.46,0.55,0.56,0.56,0.38,0.37,0.73,0.77,0.21,0.39]导包import numpy as np#线性插值from scipy import interpimport matplotlib.pyplot as plt原创 2020-11-03 20:44:39 · 2098 阅读 · 1 评论 -
机器学习--评估指标
机器学习算法的评估指标:分类其实多分类的评价指标的计算方式与二分类完全一样,只不过我们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。1、混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测原创 2021-03-16 08:56:03 · 169 阅读 · 0 评论 -
机器学习--综述
机器学习综述2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜. 深度学习开始进行大众的视野中. 深度学习其实是机器学习的一个分支,我们今天来看看机器学习是什么. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径.机器学习的发展其中,机器学习(Machi原创 2021-03-15 19:54:38 · 4047 阅读 · 0 评论 -
KS(洛伦兹曲线)
KS(洛伦兹曲线)KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1]通常来讲,KS>0.2即表示模型有较好的预测准确性。ks求解方法:ks需要TPR和FPR两个值:真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (原创 2020-11-03 21:06:29 · 2691 阅读 · 1 评论 -
详解AUC指标
AUC指标AUC是一个模型评价指标,用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写,而这条“Curve(曲线)”就是ROC曲线。ROC:受试者工作特征曲线 为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?答案是这样的:机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类原创 2020-11-03 20:26:58 · 4287 阅读 · 0 评论 -
决策树—鸢尾花数据集实验
决策树鸢尾花数据集实验import numpy as npfrom sklearn.tree import DecisionTreeClassifierimport sklearn.datasets as datasetsfrom sklearn.model_selection import train_test_split# 画树状图的包 http://www.graphviz.org/import graphvizfrom sklearn import tree# 导入数据集原创 2020-10-30 09:54:58 · 2469 阅读 · 0 评论 -
决策树
决策树【关键词】树,信息增益决策树的优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。既能用于分类,也能用于回归缺点:可能会产生过度匹配问题一、决策树的原理【二十个问题的游戏】游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似,用户输人一系列数据 ,然后给出游戏的答案。我们经常使用决策树处理分类问原创 2020-10-29 21:11:25 · 181 阅读 · 0 评论 -
LogisticRegression分类鸢尾花数据集
LogisticRegression分类鸢尾花数据集#logistics回归对鸢尾花数据集分类import sklearn.datasets as datasetsfrom sklearn.model_selection import train_test_split# 导入鸢尾花数据集iris = datasets.load_iris()irisX = iris['data']y = iris['target']#划分训练集和测试集 测试集占20%X_train,X_tes原创 2020-10-28 18:02:49 · 540 阅读 · 0 评论 -
实现线性回归算法
梯度下降法求解w和b导入所需要的包:#导入sklearn的线性回归算法只是为了验证手写的回归算法w和b求解是否正确import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LinearRegression创建数据集:X = np.linspace(2.5,12,25)w = np.random.randint(2,10,size = 1)[0]原创 2020-10-28 14:50:03 · 452 阅读 · 0 评论 -
回归算法进行人脸自动补全
回归算法进行人脸自动补全比较了普通的线性回归(LinearRegression)、 套索回归(Lasso)、岭回归(Ridge)和KNeighborsRegressor 在人脸图像补全中的效果。数据集为sklearn.datasets 中 fetch_olivetti_faces 数据集,一共有400张人脸图片。实验代码如下:Python -3.8import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom原创 2020-10-28 14:16:13 · 592 阅读 · 0 评论