![](https://img-blog.csdnimg.cn/5a7a2d4c665c4697a3d4423695b182fc.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
人工智能
文章平均质量分 91
人工智能相关笔记整理
落花雨时
守破离,断舍进。
展开
-
Pytorch深度学习基础 实战天气图片识别(基于ResNet50预训练模型,超详细)
🔥本项目使用Pytroch,并基于ResNet50模型,实现了对天气图片的识别,过程详细,十分适合基础阶段的同学阅读。项目目录结构核心步骤数据处理准备配置文件构建自定义DataSet及Dataloader构建模型训练模型编写预测模块效果展示。原创 2022-10-15 10:22:40 · 14277 阅读 · 23 评论 -
预训练模型(Bert及GPT-2)相关资料整理
介绍最基本的操作API中文版Bert的分词原理后面几个案例十分经典。原创 2022-08-16 09:03:06 · 945 阅读 · 0 评论 -
fasttext工具的使用及迁移学习
cooking.stackexchange.txt中的每一行都包含一个标签列表,后跟相应的文档, 标签列表以类似"__label__sauce __label__cheese"的形式展现, 代表有两个标签sauce和cheese, 所有标签__label__均以前缀开头,这是fastText识别标签或单词的方式. 标签之后的一段话就是文本信息.如: How much does potato starch affect a cheese sauce recipe?使用fasttext工具训练词向量的过程。..原创 2022-08-11 16:31:58 · 1008 阅读 · 0 评论 -
深度学习 Transformer架构解析
2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.相比之前占领市场的LSTM和GRU模型,Transformer有原创 2022-08-10 15:24:18 · 12976 阅读 · 1 评论 -
深度学习 RNN架构解析
RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.下面我们将以一个用户意图原创 2022-08-04 09:58:58 · 5357 阅读 · 2 评论 -
自然语言处理 文本预处理(下)(张量表示、文本数据分析、文本特征处理等)
将一段文本使用张量进行表示,其中一般将词汇为表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示.["人生","该","如何","起头"]==>#每个词对应矩阵中的一个向量[[1.32,4,32,0,32,5.2],[3.1,5.43,0.34,3.2],[3.21,5.32,2,4.32],[2.54,7.32,5.12,9.54]]https假设给定分词列表中间翻译结果。......原创 2022-08-01 14:24:46 · 1107 阅读 · 0 评论 -
自然语言处理 文本预处理(上)(分词、词性标注、命名实体识别等)
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,分词过程就是找到这样分界符的过程.命名实体通常我们将人名,地名,机构名等专有名词统称命名实体.如周杰伦,黑山县,孔子学院,24辊方钢矫直机.顾名思义,命名实体识别(NamedEntityRecognition,简称NER)就是识别出一段文本中可能存在的命名实体.词性。...原创 2022-08-01 08:29:14 · 2089 阅读 · 1 评论 -
Pytorch 入门
我们首先定义一个Pytorch实现的神经网络#导入若干工具包importtorchimporttorch.nnasnnimporttorch.nn.functionalasF#定义一个简单的网络类classNet(nn.Module)模型中所有的可训练参数,可以通过net.parameters()来获得.假设图像的输入尺寸为32*32input=torch.randn(1,1,32,32)#4个维度依次为注意维度。...原创 2022-07-28 15:27:54 · 6205 阅读 · 1 评论 -
计算机视觉 目标分割
一、目标分割简介1.1 图像分割的定义1.2 任务类型1.2.1 任务描述1.2.2 任务类型1.3 常用的开源数据集1.3.1 VOC数据集1.3.2 城市风光Cityscapes数据集1.4 评价指标1.4.1 像素精度1.4.2 平均像素精度1.4.3 平均交并比二、语义分割:FCN和UNet1. FCN网络1.1 网络结构1.1.1 全卷积部分1.1.2 上采样部分1.2 跳层连接1.3 总结2. Unet网络三、UNet案例1.1 任务及数据集简介1.2原创 2022-07-17 10:44:36 · 2556 阅读 · 8 评论 -
目标检测 YOLO系列算法
YOLO系列算法是一类典型的one-stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结合起来,从而做到了高效、灵活和泛化性能好,所以在工业界也十分受欢迎,接下来我们介绍YOLO 系列算法。Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测,核心思想就是利用整张图作为网络的输入,直接在输出层回归 bounding box(边界框) 的位置及其所属的类别,整个系统如下图所示:首先将输入图片resize到448x448,然后送入CNN网络,最后处理网络预测结果得到检原创 2022-07-14 15:56:23 · 14794 阅读 · 0 评论 -
目标检测 Faster-RCNN网络
在R-CNN和Fast RCNN的基础上,在2016年提出了Faster RCNN网络模型,在结构上,Faster RCNN已经将候选区域的生成,特征提取,目标分类及目标框的回归都整合在了一个网络中,综合性能有较大提高,在检测速度方面尤为明显。接下来我们给大家详细介绍fasterRCNN网络模型。网络基本结构如下图所示:Faster RCNN可以看成是区域生成网络(RPN)与Fast RCNN的组合,其中区域生成网络(RPN)替代选择性搜索来生成候选区域,Fast RCNN用来进行目标检测。FasterRC原创 2022-07-12 15:54:24 · 1334 阅读 · 2 评论 -
目标检测 R-CNN网络基础
Overfeat方法使用滑动窗口进行目标检测,也就是使用滑动窗口和神经网络来检测目标。滑动窗口使用固定宽度和高度的矩形区域,在图像上“滑动”,并将扫描结果送入到神经网络中进行分类和回归。例如要检测汽车,就使用下图中红色滑动窗口进行扫描,将所有的扫描结果送入网络中进行分类和回归,得到最终的汽车的检测结果。这种方法类似一种暴力穷举的方式,会消耗大量的计算力,并且由于窗口大小问题可能会造成效果不准确。2014年提出R-CNN网络,该网络不再使用暴力穷举的方法,而是使用候选区域方法(region proposal原创 2022-07-10 14:57:56 · 505 阅读 · 0 评论 -
计算机视觉 目标检测概述
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标,并确定它们的类别和位置。目标检测中能检测出来的物体取决于当前任务(数据集)需要检测的物体有哪些。假设我们的目标检测模型定位是检测动物(牛、羊、猪、狗、猫五种结果),那么模型对任何一张图片输出结果不会输出鸭子、书籍等其它类型结果。目标检测的位置信息一般由两种格式(以图片左上角为原点(0,0)):1、极坐标表示:(xmin, ymin, xmax, ymax)2、中心点坐标:(x_center, y_center, w, h)假设在原创 2022-07-10 14:36:08 · 1221 阅读 · 0 评论 -
深度学习 模型微调
如何在只有6万张图像的MNIST训练数据集上训练模型。学术界当下使用最广泛的大规模图像数据集ImageNet,它有超过1,000万的图像和1,000类的物体。然而,我们平常接触到数据集的规模通常在这两者之间。假设我们想从图像中识别出不同种类的椅子,然后将购买链接推荐给用户。一种可能的方法是先找出100种常见的椅子,为每种椅子拍摄1,000张不同角度的图像,然后在收集到的图像数据集上训练一个分类模型。另外一种解决办法是应用迁移学习(transfer learning),将从源数据集学到的知识迁移到目标数据集上原创 2022-07-08 11:22:41 · 1756 阅读 · 0 评论 -
计算机视觉 图像增强
大规模数据集是成功应用深度神经网络的前提。例如,我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来降低模型对色彩的敏感度。可以说,在当年AlexNet的成功中,图像增强技术功不可没。图像增强(image augmentation)指通过剪切、旋转/反射/翻转变换、缩放变换、平移变换、尺度变换、对比度变换、噪声扰动、颜色变换等一种或多种组合数据增强变换的方式来增加数据集的大小。图像增强的意义是通过对训练图像做一系列随机改变,来产原创 2022-07-08 10:40:25 · 1821 阅读 · 0 评论 -
图像分类模型 ResNet(残差网络)
网络越深,获取的信息就越多,特征也越丰富。但是在实践中,随着网络的加深,优化效果反而越差,测试数据和训练数据的准确率反而降低了。针对这一问题,何恺明等人提出了残差网络(ResNet)在2015年的ImageNet图像识别挑战赛夺魁,并深刻影响了后来的深度神经网络的设计。假设 F(x) 代表某个只包含有两层的映射函数, x 是输入, F(x)是输出。假设他们具有相同的维度。在训练的过程中我们希望能够通过修改网络中的 w和b去拟合一个理想的 H(x)(从输入到输出的一个理想的映射函数)。也就是我们的目标是修改F原创 2022-07-08 10:22:59 · 6647 阅读 · 0 评论 -
图像分类模型 GoogLeNet
GoogLeNet的名字不是GoogleNet,而是GoogLeNet,这是为了致敬LeNet。GoogLeNet和AlexNet/VGGNet这类依靠加深网络结构的深度的思想不完全一样。GoogLeNet在加深度的同时做了结构上的创新,引入了一个叫做Inception的结构来代替之前的卷积加激活的经典组件。GoogLeNet在ImageNet分类比赛上的Top-5错误率降低到了6.7%。GoogLeNet中的基础卷积块叫作Inception块,得名于同名电影《盗梦空间》(Inception)。Incept原创 2022-07-08 09:53:23 · 822 阅读 · 0 评论 -
图像分类模型 VGG
2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了ILSVRC2014比赛分类项目的第二名,主要贡献是使用很小的卷积核(3×3)构建卷积神经网络结构,能够取得较好的识别精度,常用来提取图像特征的VGG-16和VGG-19。VGG可以看成是加深版的AlexNet,整个网络由卷积层和全连接层叠加而成,和AlexNet不同的是,VGG中使用的都是小尺寸的卷积核(3×3),其网络架构如下图原创 2022-07-08 09:16:45 · 1968 阅读 · 0 评论 -
图像分类模型 AlexNet
2012年,AlexNet横空出世,该模型的名字源于论文第一作者的姓名Alex Krizhevsky 。AlexNet使用了8层卷积神经网络,以很大的优势赢得了ImageNet 2012图像识别挑战赛。它首次证明了学习到的特征可以超越手工设计的特征,从而一举打破计算机视觉研究的方向。AlexNet与LeNet的设计理念非常相似,但也有显著的区别,其网络架构如下图所示:该网络的特点是:AlexNet包含8层变换,有5层卷积和2层全连接隐藏层,以及1个全连接输出层AlexNet第一层中的卷积核形状是11×11。原创 2022-07-08 08:59:47 · 1441 阅读 · 0 评论 -
计算机视觉 图像分类简介
图像分类实质上就是从给定的类别集合中为图像分配对应标签的任务。也就是说我们的任务是分析一个输入图像并返回一个该图像类别的标签。假定类别集为categories = {dog, cat, panda},之后我们提供一张图片给分类模型,如下图所示:分类模型给图像分配多个标签,每个标签的概率值不同,如dog:95%,cat:4%,panda:1%,根据概率值的大小将该图片分类为dog,那就完成了图像分类的任务。该数据集是手写数字0-9的集合,共有60k训练图像、10k测试图像、10个类别、图像大小28×28×1.原创 2022-07-08 08:37:15 · 3939 阅读 · 1 评论 -
深度学习 卷积神经网络(CNN)基础
1. CNN网络的构成2. 卷积层2.1 卷积的计算方法2.2 padding2.3 stride2.4 多通道卷积2.5 多卷积核卷积2.6 特征图大小3. 池化层(Pooling)3.1 最大池化3.2 平均池化4. 全连接层5.卷积神经网络的构建5.1 数据加载5.2 数据处理5.3 模型搭建5.4 模型编译5.5 模型训练5.6 模型评估......原创 2022-07-04 15:58:38 · 835 阅读 · 0 评论 -
深度学习 神经网络案例(手写数字识别)
使用手写数字的MNIST数据集如上图所示,该数据集包含60,000个用于训练的样本和10,000个用于测试的样本,图像是固定大小(28x28像素),其值为0到255。整个案例的实现流程是:首先要导入所需的工具包:1. 数据加载首先加载手写数字图像结果为:数据展示:效果如下所示:神经网络中的每个训练样本是一个向量,因此需要对输入进行重塑,使每个28x28的图像成为一个的784维向量。另外,将输入数据进行归一化处理,从0-255调整到0-1。输出为:另外对于目标值我们也需要进行处理,将其转换为热编原创 2022-07-03 16:22:02 · 5213 阅读 · 1 评论 -
深度学习 网络正则化
在设计机器学习算法时不仅要求在训练集上误差小,而且希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差,这些策略被统称为正则化。因为神经网络的强大的表示能力经常遇到过拟合,所以需要使用不同形式的正则化策略。正则化通过对算法的修改来减少泛化误差,目前在深度学习中使用较多的策略有参数范数惩罚,提前终止,DropOut等,接下来我们对其进行详细的介绍。L1和L2是最常见的正则化方法。它们在损失函数(cost function)中增加一个正则项,由于添加了这个正则化项,权重矩阵的值减小,因为它原创 2022-07-03 15:50:59 · 1732 阅读 · 0 评论 -
深度学习 神经网络的优化方法
1. 梯度下降算法【回顾】2. 反向传播算法(BP算法)2.1 前向传播与反向传播2.2 链式法则2.3 反向传播算法3. 梯度下降优化方法3.1 动量算法(Momentum)3.2 AdaGrad3.3 RMSprop3.4 Adam4. 学习率退火4.1 分段常数衰减4.2 指数衰减4.3 1/t衰减总结...原创 2022-07-03 11:08:15 · 5397 阅读 · 0 评论 -
深度学习 常见的损失函数
在深度学习中, 损失函数是用来衡量模型参数的质量的函数, 衡量的方式是比较网络输出和真实输出的差异,损失函数在不同的文献中名称是不一样的,主要有以下几种命名方式:在深度学习的分类任务中使用最多的是交叉熵损失函数,所以在这里我们着重介绍这种损失函数。在多分类任务通常使用softmax将logits转换为概率的形式,所以多分类的交叉熵损失也叫做softmax损失,它的计算方法是:其中,y是样本x属于某一个类别的真实概率,而f(x)是样本属于某一类别的预测分数,S是softmax函数,L用来衡量p,q之间差异性的原创 2022-07-01 11:00:14 · 3701 阅读 · 0 评论 -
深度学习 神经网络基础
1. 深度学习简介2. 什么是神经网络3. 神经元是如何工作的?3.1 激活函数3.1.1 Sigmoid/logistics函数3.1.2 tanh(双曲正切曲线)3.1.3 RELU3.1.4 LeakReLu3.1.5 SoftMax3.1.6 其他激活函数3.1.7 如何选择激活函数3.2 参数初始化3.2.1 随机初始化3.2.2 标准初始化3.2.3 Xavier初始化3.2.4 He初始化4. 神经网络的搭建4.1 通过Sequential构建4.2 利用f原创 2022-07-01 09:32:37 · 1326 阅读 · 0 评论 -
深度学习 TensorFlow入门
深度学习框架TensorFlow一经发布,就受到了广泛的关注,并在计算机视觉、音频处理、推荐系统和自然语言处理等场景下都被大面积推广使用,接下来我们深入浅出的介绍Tensorflow的相关应用。TensorFlow的依赖视图如下所示:TensorFlow 2.0 将专注于简单性和易用性,工作流程如下所示:1、使用tf.data加载数据。 使用tf.data实例化读取训练数据和测试数据2、模型的建立与调试: 使用动态图模式 Eager Execution 和著名的神经网络高层 API 框架 Keras,结合可原创 2022-06-22 10:15:05 · 32027 阅读 · 4 评论 -
计算机视觉 简介
计算机视觉是指用摄像机和电脑及其他相关设备,对生物视觉的一种模拟。它的主要任务让计算机理解图片或者视频中的内容,就像人类和许多其他生物每天所做的那样。我们可以将其任务目标拆分为:那我们在OpenCV阶段,主要学习图像处理,而图像处理主要目的是对图像的处理,比如平滑,缩放等,想、从而为其他任务(比如“计算机视觉”)做好前期工作。根据上述对计算机视觉目标任务的分解,可将其分为三大经典任务:图像分类、目标检测、图像分割图像分类(Classification):即是将图像结构化为某一类别的信息,用事先确定好的类别(原创 2022-06-22 08:13:40 · 7948 阅读 · 1 评论 -
深度学习 简介
在介绍深度学习之前,我们先看下人工智能,机器学习和深度学习之间的关系:机器学习是实现人工智能的一种途径,深度学习是机器学习的一个子集,也就是说深度学习是实现机器学习的一种方法。与机器学习算法的主要区别如下图所示:传统机器学习算术依赖人工设计特征,并进行特征提取,而深度学习方法不需要人工,而是依赖算法自动提取特征。深度学习模仿人类大脑的运行方式,从经验中学习获取知识。这也是深度学习被看做黑盒子,可解释性差的原因。随着计算机软硬件的飞速发展,现阶段通过深度学习来模拟人脑来解释数据,包括图像,文本,音频等内容。目原创 2022-06-22 07:57:52 · 21071 阅读 · 0 评论 -
机器学习基础 集成学习进阶(XGBoost+LightGBM)
XGBoost(Extreme Gradient Boosting)全名叫极端梯度提升树,XGBoost是集成学习方法的王牌,在Kaggle数据挖掘比赛中,大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖,本节将较详细的介绍XGBoost的算法原理。我们在前面已经知道,构建最优模型的一般方法是最小化训练数据的损失函数。我们用字母 L表示损失,如下式:式(1.1)称为经验风险最小化,训练得到的模型复杂度较高。当训练数据较小时,模型很容易出现过拟合问题。因此,为了降低模型原创 2022-06-19 17:32:26 · 1642 阅读 · 0 评论 -
机器学习基础 HMM模型(隐马尔科夫)
在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概念。马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名。马尔科夫链即为状态空间中从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:马尔科夫链作为实际过程的统计模型具有许多应用。在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态原创 2022-06-16 17:58:14 · 12350 阅读 · 3 评论 -
机器学习基础 EM算法
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,所以算法被称为EM算法(Expectation-Maximization Algorithm)。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在Dempster、Laird和Rubin三人于1977年所做的文章《Maximum l原创 2022-06-16 08:14:58 · 2233 阅读 · 1 评论 -
机器学习基础 SVM(支持向量机)
一、SVM算法简介1. SVM算法导入2. SVM算法定义2.1 定义2.2 超平面最大间隔介绍2.3 硬间隔和软间隔2.3.1 硬间隔分类2.3.2 软间隔分类3. 小结二、SVM算法api初步使用三、SVM算法原理1. 定义输入数据2. 线性可分支持向量机3. SVM的计算过程与算法步骤3.1 推导目标函数3.2 目标函数的求解3.2.1 拉格朗日乘子法3.2.2 对偶问题3.2.3 整体流程确定4. 举例四、SVM的损失函数五、SVM的核方法1. 什么是核函原创 2022-06-12 15:08:40 · 2164 阅读 · 0 评论 -
机器学习基础 朴素贝叶斯算法
一、 朴素贝叶斯算法简介二、概率基础复习1.概率定义2.案例:判断女神对你的喜欢情况3.联合概率、条件概率与相互独立4.贝叶斯公式4.1 公式介绍4.2 案例计算4.3 文章分类计算三、 案例:商品评论情感分析1. api介绍2. 商品评论情感分析2.1 步骤分析2.2 代码实现四、朴素贝叶斯算法总结1.朴素贝叶斯优缺点2.朴素贝叶斯内容汇总2.1 NB的原理2.2 朴素贝叶斯朴素在哪里?2.3 为什么引入条件独立性假设?2.4 在估计条件概率P(X∣Y)时出现概率为原创 2022-06-10 15:26:58 · 1947 阅读 · 1 评论 -
特征工程 特征降维
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlated feature)数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。删除低方差的一些特征,前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。我们对某些股票的指标特征之间进行一个筛选,除去’index,‘date’,'return’列不考虑(这些类型不匹配,也不是所需要指标)一共这些特征分析:1、初始化VarianceThreshold原创 2022-06-10 09:21:15 · 484 阅读 · 1 评论 -
机器学习基础 聚类算法
使用不同的聚类准则,产生的聚类结果不同。用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别基于位置信息的商业推送,新闻聚类,筛选排序图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法是无监督的学习算法,而分类算法属于监督的学习原创 2022-06-08 17:08:11 · 1898 阅读 · 0 评论 -
机器学习基础 集成学习基础(Boosting+Adaboost+GBDT)
随着学习的积累从弱到强简而言之:每新加入一个弱学习器,整体能力就会得到提升代表算法:Adaboost,GBDT,XGBoost,LightGBM1.训练第一个学习器2.调整数据分布3.训练第二个学习器4.再次调整数据分布5.依次训练学习器,调整数据分布6.整体过程实现步骤一:初始化训练数据权重相等,训练第一个学习器。步骤二:AdaBoost反复学习基本分类器,在每一轮m=1,2,...,Mm=1,2,...,Mm=1,2,...,M顺次的执行下列操作:(a) 在权值分布为DtD_tDt原创 2022-06-06 10:17:24 · 439 阅读 · 0 评论 -
机器学习基础 集成学习基础(Bagging+随机森林)
一、集成学习算法简介1. 什么是集成学习2 复习:机器学习的两个核心任务3. 集成学习中boosting和Bagging4. 小结二、Bagging和随机森林1. Bagging集成原理2. 随机森林构造过程3. 包外估计 (Out-of-Bag Estimate)3.1 包外估计的定义3.2 包外估计的用途4. 随机森林api介绍5. 随机森林预测案例6. bagging集成优点7. 小结...原创 2022-06-05 11:01:29 · 621 阅读 · 0 评论 -
特征工程-特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征2. 字典特征提取作用:对字典数据进行特征值化我们对以下数据进行特征提取注意观察没有加上sparse=False参数的结果这个结果并不是我们想要看到的,所以加上参数,得到想要的结果:之前在学习pandas中的离散化的时候,也实现了类似的效果。我们把这个处理数据的技巧叫做”one-hot“编码对于特征当中存在类别信息的我们都会做one-hot编码处理作用:对文本数据进行特征值化我们对以下数据进行特征提取返回结果:问题:如果我们将数据替换原创 2022-06-02 09:48:26 · 519 阅读 · 0 评论 -
机器学习基础 决策树算法
文章目录一、决策树算法简介二、决策树分类原理1. 熵1.1 概念1.2 案例2. 决策树的划分依据一----信息增益2.1 概念2.2 案例3. 决策树的划分依据二----信息增益率3.1 概念3.2 案例3.2.1 案例一3.2.2 案例二3.3 为什么使用C4.5要好4. 决策树的划分依据三 ----基尼值和基尼指数4.1 概念4.2 案例5. 小结5.1 常见决策树的启发函数比较5.1.1 ID3 算法5.1.2 C4.5算法5.1.3 CART算法5.1.4 多变量决策树(multi-variate原创 2022-05-30 15:01:08 · 4888 阅读 · 1 评论