数据挖掘与机器学习
文章平均质量分 90
人工智能(英语:Artificial Intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
别团等shy哥发育
硕士在读,对分布式、中间件、容器、微服务、深度学习、机器学习与数据挖掘方面感兴趣,希望可以在这些方面和大家交流学习方法。
后续文章会搬到这里:www.codeleader.top
展开
-
ARIMA差分自回归移动平均模型--时间序列预测
ARIMA是差分自回归移动平均模型的引文缩写,其中AR表示的是自回归模型,MA表示的是移动平均模型,I表示的是差分。一般写成ARIMA(p,d,q),p是自回归阶数,q是移动平均阶数,d表示差分的次数。 它针对的是 平稳的时间序列模型.然而在现实生活中绝大多 数时间序列都是非平稳的。因此可以对数据进行差分,使其转化为平稳的时间序列,再用 ARIMA模型对其数据进行建模和预测。 ARIMA模型是根据过去不同时期数据的相关性,可以进行有效和精准的短期预测,它弥补了AR和MA进行预测出现的参数过多问题,在原创 2022-07-10 20:10:33 · 6313 阅读 · 1 评论 -
良/恶性乳腺肿瘤预测(逻辑回归分类器)
本案例使用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测,并对预测模型进行指标测算与评价。这里数据集采用乳腺癌数据集,原始的数据集下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data。 数据特征如下: 将每个属性的特征量化为1~10的数值进行表示。首先,导入数据并显示前5条数据。如果存在缺失数据,需要丢弃或填充......原创 2022-06-26 18:42:36 · 1297 阅读 · 2 评论 -
聚类算法(无监督学习)
聚类就是把数据对象集合按照相似性划分成多个子集的过程(如下图)。其中,每个子集称为一个簇。聚类不仅要使簇中的对象彼此相似,而且要与其他簇中的对象相似。聚类是无监督学习,数据不需要类标号(标注)信息。 分类是有监督学习,即每个训练样本的数据对象已经有类标签,通过有标签样本学习分类器。 聚类是无监督学习,即不使用训练数据进行学习,通过观察学习将数据集分割成多个簇。划分方法是指讲有n个对象的数据集D划分成k(k............原创 2022-06-18 11:24:06 · 3425 阅读 · 1 评论 -
集成学习之GBDT
GBDT、Treelink、 GBRT(Gradient Boost Regression Tree)、Tree Net、MART(Multiple Additive Regression Tree)算法都是以决策树为基分类器的集成算法,通常由多棵决策树构成,通常是上百棵树且每棵树规模都较小(即树的深度都比较浅)。进行模型预测的时候,对于输入的一个样本实例X,遍历每一棵决策树,每棵树都会对预测值进行调整修正,最后得到预测的结果。假设F0F_0F0是设置的初值,TiT_iTi是一颗一颗的决策树。预测结原创 2022-06-17 15:40:45 · 411 阅读 · 0 评论 -
BP神经网络(反向传播算法原理、推导过程、计算步骤)
反向传播算法的核心思想是将输出误差以某种形式通过隐藏层向输入层逐层反转,如下图所示。 反向传播算法在整个神经网络训练过程中发挥着重要的作用,它调整神经元之间的参数来学习样本中的规则,事实上权重存储了数据中存在的特征。在训练过程中,前向传播和后向传播相辅相成,如下图所示。 反向传播算法由Hinton于1986年在Nature的论文中提出。简单来说,反向传播主要解决神经网络在训练模型时的参数更新问题。假设神经网络如下图所示,为了简化推到过程,输入层只用了一个特征。同样,输出层也只有一个节点,隐藏层使用了原创 2022-06-16 19:34:58 · 3717 阅读 · 0 评论 -
KNN最近邻算法
最近邻算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习,可以用于基本的分类与回归方法。 如下图所示,最近邻算法的工作原理是存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。 最近邻分类器基本思想可以通俗地描述为“如果走的像鸭子,叫的像鸭子,看起来还像鸭子,那么它很可能就是一原创 2022-06-10 16:31:09 · 2581 阅读 · 0 评论 -
决策树(Hunt、ID3、C4.5、CART)
决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树型结构,其规则就是if…then…的思想,用于数值型因变量的预测和离散型因变量的分类。决策树算法简单直观,容易解释,而且在实际应用中具有其他算法难以比肩的速度优势。 决策树方法在分类、预测和规则提取等领域有广泛应用。在20世纪70年代后期和80年代初期,机器学习研究人员J.Ross Quinlan开发了决策树算法,称为迭代的二分器(Iterative Dichotomiser, ID3),使得决策树在机器学习领域得到极大发展。Quinlan后原创 2022-06-09 17:52:51 · 1098 阅读 · 0 评论 -
朴素贝叶斯分类器
分类是找出描述和区分数据类或概念的模型,以便使用模型预测类标号未知的对象类标号。 分类一般分为两个阶段:学习阶段:分类阶段:使用定义好的分类器进行分类的过程。 分类与预测是不同的概念,分类是预测分类(离散、无序)标号,而数值预测是建立连续值函数模型。分类与具类也是不同的概念,分类是有监督学习,提供了训练元组的类标号;聚类是无监督学习,不依赖有类标号的训练实例。 贝叶斯定理的公式为:P(h│D)=P(D│h)P(h)P(D)P(ℎ│D)=\frac{P(D│ℎ)P(ℎ)}{P(D)}P(h│D原创 2022-06-08 17:10:41 · 885 阅读 · 4 评论 -
Boosting分类器
提升方法(Boosting),是一种可以用来减小监督式学习中偏差的机器学习算法。面对的问题是迈可·肯斯(Michael Kearns)提出的:一组“弱学习者”的集合能否生成一个“强学习者”?弱学习者一般是指一个分类器,它的结果只比随机分类好一点点;强学习者指分类器的结果非常接近真值。 在提升方法中,给每个训练元组一个权重。在迭代学习k个基分类器的过程中,学习得到分类器MiM_iMi之后,更新元组的权重。使其后的分类器更关注MiM_iMi误分类的训练元组。最终提升的分类器M∗M^{*}M∗组合每个分原创 2022-06-06 03:45:00 · 508 阅读 · 0 评论 -
随机森林分类器
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树。想象组合分类器中的每个分类器都是一棵决策树,因此,分类器的集合就是一个“森林”。更准确地说,每一棵树都依赖于独立抽样,并与森林中所有树具有相同分布地随机向量值。 随机森林是利用多个决策树对样本进行训练、分类并预测地一种算法,主要应用于回归和分类场景。在对数据进行分类地同时,还可以给出各个变量地重要性评分,评估各个变量在分类中所起地作用。分类时,每棵树都投票并且返回得票最多的类。行采样:有放回的重采用抽样数据;数据的随机性,模型原创 2022-06-05 17:31:46 · 1108 阅读 · 0 评论 -
Bagging分类器
袋装(Bagging)是一种采用随机又放回抽样选择训练数据构造分类器进行组合的方法。如同找医生看病,选择多个医生,根据多个医生的诊断结果得出最终结果(多数表决),每个医生具有相同的投票权重。 在训练过程中,通过又放回抽样,把训练集变成多份,然后对每份训练集学习一个模型。 测试阶段,用上一步得到的每个模型来进行一个预测,最后用加权求和方法对模型进行组合。 假设有三个分类器,每个分类器的错误率为40%,那么这三个分类器的预测结果有如下8种可能性 上图中prob为每种组合出现的可能性,在这8种组合里面原创 2022-06-05 17:04:49 · 1213 阅读 · 0 评论 -
关联规则挖掘--Apriori算法
关联规则挖掘--Apriori算法1、关联规则概述2、置信度、支持度、提升度的概念3、关联规则挖掘问题4、Apriori算法4.1 算法步骤4.2 先验原理4.3 寻找最大频繁项的过程4.4 注意问题:项的连接5、代码实战1、关联规则概述 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中 一个事物就能够通过其他事物预测到。 关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的原创 2022-05-18 21:11:10 · 1016 阅读 · 0 评论 -
基于卷积神经网络的CIFAR10图像分类
基于CNN的CIFAR10图像分类一、CIFAR10数据集介绍1.1 数据集介绍1.2 数据集的下载和测试二、实验步骤2.1 定义标签字典2.2 数据预处理2.3 定义网络结构2.4 查看模型摘要2.5 模型训练2.6 可视化训练过程数据2.7 评估模型及预测2.8 应用模型及预测三、实验结果3.1 定义显示图像数据及其对应标签的函数3.2 可视化预测结果一、CIFAR10数据集介绍1.1 数据集介绍 CIFAR-10 数据集由10个类别的60000张32x32彩色图像组成,每类6000张图像。有5原创 2021-11-28 15:03:50 · 9259 阅读 · 4 评论 -
Anaconda安装tensorflow2
Anaconda安装tensorflow21、添加镜像源2、 新建虚拟环境3、查看现有环境4、激活环境5、安装tensorflow6、测试是否安装成功1、添加镜像源打开anaconda prompt添加国内源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.e原创 2021-11-10 15:24:24 · 2379 阅读 · 0 评论 -
遗传算法中的变异和交叉
遗传算法中的变异和交叉一、交叉方法1.部分匹配交叉(PMX)由于一次只能去一个城市,所以一条染色体中的编码是不能重复的比如我们随机产生两个父代:A=762150483,B=416307582,我们假设选中的交叉位为第四位和第七位,我们如果让交叉位里面的编码直接换,那对A来说,交叉位里面的3、7和交叉位外面的3、7重复了,则让交叉位外面的3和4去换,让交叉位外面的7和5去换,则成功产生两...原创 2020-05-09 20:09:05 · 16359 阅读 · 1 评论