python机器学习与数据挖掘
文章平均质量分 76
机器学习与数据挖掘
shi_jiaye
这个作者很懒,什么都没留下…
展开
-
DataLoader的使用
最后一步为8x2张图片,这是由于最后一组图片不足64张,并且drop_last=False,这个参数表示最后一步不足batch_size大小时,仍然保留图片。最后一步为第155步,有8X8张图片,删掉了最后一组的图片。当重复运行两轮时,决定第一轮数据和第二轮数据是否一样。运行后,在文件目录中生成dataloader文件夹。若改为drop_last=True。点开链接,每一步为8x8张图片。原创 2024-04-06 19:34:43 · 321 阅读 · 0 评论 -
torchvision中的数据集使用
打断点–>右键Debug–>找到classes。原创 2024-04-06 16:31:58 · 322 阅读 · 0 评论 -
Torchvision中的Transforms的使用
Torchvision中的Transforms的使用,包括一些transforms工具原创 2023-12-24 00:30:16 · 858 阅读 · 0 评论 -
PyTorch加载数据以及Tensorboard的使用
Pytorch加载数据集操作以及Tensorboard的使用原创 2023-12-22 21:50:26 · 1471 阅读 · 0 评论 -
深度学习python编译器的配置及法宝函数的作用
深度学习python编译器的配置及法宝函数的作用原创 2023-12-16 15:47:33 · 372 阅读 · 0 评论 -
深度学习环境配置
深度学习环境配置,Anaconda、CUDA、cuDNN以及pytorch的下载和安装。原创 2023-12-15 22:25:30 · 195 阅读 · 0 评论 -
神经网络与深度学习
神经网络基础神经元模型感知机与多层网络BP神经网络多层前馈神经网络后向传播算法BP神经网络应用深度学习深度学习概述常用的深度学习算法小结原创 2021-08-23 10:53:50 · 12850 阅读 · 1 评论 -
聚类(七)—— 小结
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估小结七、小结簇是数据对象的集合,同一个簇中的对象彼此相似,而不同簇中的对象彼此相异。将物理或抽象对象的集合划分为相似对象的类的过程称为聚类。常用的聚类方法有划分方法、层次方法、基于密度的方法和概率模型的聚类方法。划分方法首先创建k个分区的初始结合,其中参数k是要构建的分区数。然后,它采用迭代重定位技术,试图通过把对象从一个簇移到另一个簇来改进划分的质量。典型的划分方法包括K-means、K中心.原创 2021-08-21 16:24:11 · 454 阅读 · 0 评论 -
聚类(六)—— 聚类评估
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估小结六、聚类评估聚类评估用于对在数据集上进行聚类的可行性和被聚类方法产生的结果的质量进行评估。聚类评估主要包括以下任务。1.估计聚类趋势2.确定数据集中的划分簇数3.测定聚类质量聚类趋势的估计(3)如果D是均匀分布的,H接近0.5。聚类簇数的确定找出正确的簇数依赖于数据集分布的形状和尺度,也依赖于用户要求的聚类分辨率。有许多估计簇数的可能方法。这里简略介绍几种简单但流行和有效的方法。.原创 2021-08-21 16:23:51 · 5743 阅读 · 0 评论 -
聚类(五)—— 其他聚类方法
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估五、其他聚类方法除了常用的划分聚类、层次聚类和密度聚类方法之外,还有一些聚类方法如网格聚类方法STING、概念聚类COBWEB和模糊聚类方法等。STING聚类STING(Statistical Information Grid_based Method)是一种基于网格的多分辨率的聚类技术,它将输入对象的空间区域划分成矩形单元,空间可以用分层和递归方法进行划分。这种多层矩形单元对应不同的分辨率,并且形成一.原创 2021-08-21 15:45:38 · 1172 阅读 · 0 评论 -
聚类(四)—— 基于密度的聚类
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估四、基于密度的聚类算法原理基于密度的聚类算法的主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就把它加到与之相近的聚类中。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。基于密度的聚类算法代表算法有:DBSCAN算法、OPTICS算法及DENCLUE算法等。DBSCAN算法涉及2个参数5个定义:定义1(Eps邻域)给定一个对象 p ,p 的.原创 2021-08-21 11:41:31 · 12667 阅读 · 0 评论 -
聚类(三)—— 层次聚类
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估三、层次聚类算法原理层次聚类 (Hierarchical Clustering)就是按照某种方法进行层次分类,直到满足某种条件为止。层次聚类主要分成两类:(1)凝聚:从下到上。首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者满足某个终结条件。(2)分裂:从上到下。首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终.原创 2021-08-21 10:38:54 · 11491 阅读 · 0 评论 -
聚类(二)—— K-Means聚类
主要内容聚类分析概述K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估二、K-Means聚类聚类分析中最广泛使用的算法为K-Means聚类算法。算法原理给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,k<=n,而且满足:(1)每个组至少包含一个对象;(2)每个对象属于且仅属于一个组。划分时要求同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。K-Means算法是一个迭代的优化算法,最终使得下面均方误差最原创 2021-08-21 09:56:30 · 1718 阅读 · 0 评论 -
聚类(一)—— 聚类分析概述
内容聚类分析概述聚类分析的概念聚类算法分类K-Means聚类算法原理算法改进层次聚类原创 2021-08-21 09:49:42 · 1423 阅读 · 0 评论 -
分类(八)—— 小结
小结分类是一种数据分析形式,它提取描述数据类的模型。分类器预测类别标号(类)。数值预测建立连续值函数模型。分类和数值预测是两类主要的预测问题。决策树归纳是一种自顶向下递归树归纳算法,它使用一种属性选择度量为树的每个非树叶结点选择测试属性。ID3、C4.5和CART都是这种算法的例子, 它们使用不同的属性选择度量。朴素贝叶斯分类基于后验概率的贝叶斯定理。它假定类条件独立,即一个属性值对给定类的影响独立于其他属性的值。支持向量机(SVM)是一种用于线性和非线性数据的分类算法。它把源数据变换原创 2021-08-20 16:54:14 · 318 阅读 · 0 评论 -
分类(七)—— 组合分类
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类七、组合分类组合分类方法简介袋装提升和AdaBoost随机森林原创 2021-08-20 16:52:32 · 2231 阅读 · 0 评论 -
分类(六)—— 模型评估与选择
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类六、模型评估与选择构建的分类器总是希望有较好的性能,如何评估分类器性能,需要一些客观的指标进行评判。比如,如何评估分类器的准确率(模型评估)以及如何在多个分类器中选择“最好的”一个。分类器性能的度量1.混淆矩阵根据实际类别与机器学习预测类别的组合(混淆矩阵,Confusion Matrix)可分为真正例(True Positive,TP)(又称真阳性)、假正例(False Positive,FP.原创 2021-08-20 00:05:54 · 1276 阅读 · 0 评论 -
分类(五)—— 朴素贝叶斯分类
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类五、朴素贝叶斯分类贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理(Bayes Theorem)为基础,采用了概率推理方法。算法原理贝叶斯定理提供了一种计算假设概论的方法。用P(h)表示在没有训练数据前假设h拥有的初始概率,常称为h的先验概率;P(D)表示将要观察的训练数据D的先验概率;P(D|h)表示假设h成立的情况下数据D的概率。贝叶斯公式给出了计算给定训练数据D时计算h成立的概率.原创 2021-08-19 17:30:32 · 551 阅读 · 0 评论 -
分类(四)—— 支持向量机
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类四、支持向量机支持向量机(Support Vetor Machine,SVM)由Vapnik等人于1995年首先提出,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并推广到人脸识别、行人检测和文本分类等其他机器学习问题中。SVM建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳平衡,以求获得最好的推广能力。SVM可以用于数值预测和分.原创 2021-08-19 16:42:09 · 5786 阅读 · 0 评论 -
分类(三)—— k近邻算法
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类三、K近邻算法K近邻(k-Nearest Neighbor Classification,KNN)算法是机器学习算法中最基础、最简单的算法之一,属于惰性学习法。算法原理KNN算法基于类比学习,即通过将给定的检验元组与和它相似的元组进行比较来学习。训练元组用n个属性描述,每个元组代表n维空间的一个点。所有的训练元组都存放在n维模式空间中。当给定一个未知元组时,KNN搜索模式空间,根据距离函数计算待分.原创 2021-08-19 10:59:40 · 804 阅读 · 1 评论 -
分类(二)—— 决策树归纳
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类二、决策树归纳决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树型结构,其规则就是if…then…的思想,用于数值型因变量的预测和离散型因变量的分类。决策树算法简单直观,容易解释,而且在实际应用中具有其他算法难以比肩的速度优势。决策树原理决策树方法在分类、预测和规则提取等领域有广泛应用。在20世纪70年代后期和80年代初期,机器学习研究人员J.Ross Quinlan开发了决策树算法,.原创 2021-08-19 10:53:47 · 1598 阅读 · 0 评论 -
分类(一)—— 分类概述
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类一、分类概述二、决策树归纳决策树原理ID3算法C4.5算法CART算法树剪枝决策树应用三、K近邻算法算法原理python算法实现四、支持向量机算法原理python算法实现五、朴素贝叶斯分类算法原理朴素贝叶斯分类高斯朴素贝叶斯分类多项式朴素贝叶斯分类朴素贝叶斯分类应用六、模型评估与选择分类器性能的度量模型选择七、组合分类组合分类方法简介袋装提升和AdaBoo.原创 2021-08-19 10:49:52 · 677 阅读 · 0 评论 -
关联规则挖掘(下)
主要内容关联规则分析概述频繁项集、闭项集和关联规则频繁项集挖掘方法关联模式评估方法Apriori算法应用关联规则挖掘(上)关联规则挖掘(下)四、关联模式评估方法大部分关联规则挖掘算法都使用支持度-置信度框架。尽管最小支持度和置信度阈值可以排除大量无趣规则的探查,但仍然会有一些用户不感兴趣的规则存在。当使用低支持度阈值挖掘或挖掘长模式时,这种情况尤为严重。强关联规则不一定是有趣的从关联分析到相关分析由于支持度和置信度还不足以过滤掉无趣的关联规则,因此,可以使用相关性度量来扩展.原创 2021-08-09 11:07:44 · 1126 阅读 · 0 评论 -
关联规则挖掘(上)
主要内容关联规则分析概述频繁项集、闭项集和关联规则频繁项集挖掘方法关联模式评估方法Apriori算法应用小结关联规则分析用于在一个数据集中找出各数据项之间的关联关系,广泛用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中。一、关联规则分析概述关联规则分析又称购物篮分析,最早是为了发现超市销售数据库中不同商品之间的关联关系。采用关联模型比较典型的案例是“尿布与啤酒”的故事。关联规则分析通过量化的数字描述某物品的出现对其他物品的影响程度,是数据挖掘中较活跃的研究方法之一。目.原创 2021-08-09 11:06:30 · 1344 阅读 · 0 评论 -
回归分析(五)—— 其他回归分析
主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析五、其他回归分析多项式回归线性回归的局限性是只能应用于存在线性关系的数据中,但是在实际生活中,很多数据之间是非线性关系,虽然也可以用线性回归拟合非线性回归,但是效果会变差,这时候就需要对线性回归模型进行改进,使之能够拟合非线性数据。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。由于任一函数都可以用多项式逼近,因此多项式回归有着广泛应用。研究一个因变量与一个或多个自变量间多项式的回归分析方法,称.原创 2021-08-08 10:18:32 · 973 阅读 · 0 评论 -
回归分析(四)—— 逻辑回归
主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析四、逻辑回归线性回归算法能对连续值的结果进行预测,而逻辑回归模型是机器学习从统计领域借鉴的另一种技术,用于分析二分类或有序的因变量与解释变量之间的关系。逻辑回归算法是一种广义的线性回归分析方法,它仅在线性回归算法的基础上,利用Sigmoid函数对事件发生的概率进行预测。也就是说,在线性回归中可以得到一个预测值,然后将该值通过逻辑函数进行转换,将预测值转为概率值,再根据概率值实现分类。逻辑回归常用于数据挖掘、疾病自动诊断.原创 2021-08-07 22:37:17 · 1247 阅读 · 0 评论 -
回归分析(三)—— 多元线性回归
主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析一、回归分析概述(一)回归分析的定义与分类(二)回归分析的过程(1)收集一组包含因变量和自变量的数据;(2)根据因变量和自变量之间的关系,初步设定回归模型;(3)求解合理的回归系数;(4)进行相关性检验,确定相关系数;(5)利用模型对因变量作出预测或解释,并计算预测值的置信区间。一元线性回归分析(一)一元线性回归方法随机误差反映了除x和y之间的线性关系之外的随机因素对y的影响。分析预测房子的大小.原创 2021-08-07 21:31:50 · 16759 阅读 · 2 评论 -
回归分析(二)—— 一元线性回归分析
主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析一、回归分析概述(一)回归分析的定义与分类(二)回归分析的过程(1)收集一组包含因变量和自变量的数据;(2)根据因变量和自变量之间的关系,初步设定回归模型;(3)求解合理的回归系数;(4)进行相关性检验,确定相关系数;(5)利用模型对因变量作出预测或解释,并计算预测值的置信区间。一元线性回归分析(一)一元线性回归方法随机误差反映了除x和y之间的线性关系之外的随机因素对y的影响。分析预测房子的大小.原创 2021-08-07 14:11:12 · 10194 阅读 · 0 评论 -
回归分析(一)—— 回归分析概述
回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析原创 2021-08-07 14:08:41 · 867 阅读 · 0 评论 -
数据预处理(八)——小结
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理小结(1)现实中获得的数据极易受到噪声、缺失值和不一致数据的侵扰。数据的质量决定了数据挖掘的效果,因此在数据挖掘之前要对数据进行预处理,提高数据质量,从而提高数据挖掘的效果。数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义。(2)数据清理用于填补缺失的值、光滑噪声同时识别离群点,并纠正数据的不一致性。数据清理通常是一个两步的迭代过程,即偏差检测和数据变换。(3.原创 2021-08-05 13:02:04 · 445 阅读 · 0 评论 -
数据预处理(七)——利用sklearn进行数据预处理
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理原创 2021-08-05 13:01:08 · 1991 阅读 · 0 评论 -
数据预处理(六)——数据变换与离散化
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理六、数据变换与离散化在数据预处理过程中,不同的数据适合不同的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。数据离散化是一种数据变换的形式。(一)数据变换的策略1.光滑数据光滑用于去掉数据中的噪声。常用的数据光滑方法有分箱、回归和聚类等。2.属性构造属性构造是通过由给定的属性构造新的属性并添加到属性集中,以.原创 2021-08-04 21:08:10 · 5613 阅读 · 0 评论 -
数据预处理(五)——数据规约
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理五、数据规约数据归约(Data Reduction)用于在尽可能保持数据完整性的基础上得到数据的归约表示。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩。(一)维归约维归约的思路是减少所考虑的随机变量或属性的个数,使用的方法有属性子集选择、小波变换和主成分分析。属性子集选择是一种维归约方法,其中不相关.原创 2021-08-04 21:06:38 · 12422 阅读 · 0 评论 -
数据预处理(四)——数据标准化
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理四、数据标准化不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。1.离差标准化数据离差标准化是对原始数据所做的一种线性变换,将原始数据的数值映射到[0,1]区间。数据的离差标准化。import numpy as npdef MinMaxScale(data): .原创 2021-08-04 15:46:06 · 3816 阅读 · 1 评论 -
数据预处理(三)——数据集成
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理三、数据集成数据集成是将多个数据源中的数据合并,存放于一个一致的数据存储中。1.数据集成过程中的关键问题1.实体识别2.数据冗余和相关分析3.元组重复4.数据值冲突检测与处理5.数据异常值检测实体识别实体识别问题是数据集成中的首要问题,因为来自多个信息源的现实世界的等价实体才能匹配。如数据集成中如何判断一个数据库中的customer_id和另一数据库中的c.原创 2021-08-04 15:17:57 · 6421 阅读 · 0 评论 -
数据预处理(二)——数据清洗
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理二、数据清洗1.缺失值的处理(1)忽略元组(2)人工填写缺失值(3)使用一个全局常量填充缺失值(4)使用属性的中心度量(如均值或中位数)填充缺失值(5)使用与给定元组属同一类的所有样本的属性均值或中位数(6)使用最可能的值填充缺失值2.噪声数据的处理噪声(Noise)是被测量的变量的随机误差或方差。噪声的处理方法一般有分箱、回归和离群点分析等方法。(1)分箱.原创 2021-08-04 15:15:48 · 3019 阅读 · 0 评论 -
数据预处理(一)——数据预处理的必要性
主要内容:数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理一、数据预处理的必要性1.数据的不一致各应用系统的数据缺乏统一的标准和定义,数据结构有较大的差异2.噪声数据收集数据时很难得到精确的数据,如数据采集设备故障、数据传输过程中会出现错误或存储介质可能出现的损坏等情况3.缺失值系统设计时可能存在的缺陷或者在系统使用过程中人为因素的影响数据质量要求数据挖掘需要的数据必须是高质量的数据,即数据挖掘所处理的数据必须具有准确.原创 2021-08-03 23:12:50 · 6662 阅读 · 0 评论 -
机器学习2:KNN算法
KNN算法一、KNN概述1.KNN算法的原理2.KNN算法的优缺点3.KNN算法的参数二、使用KNN算法进行分类三、示例:糖尿病预测原创 2021-03-21 16:29:56 · 1280 阅读 · 1 评论 -
机器学习1:scikit-learn简介(5)—— 文本数据处理
scikit-learn的介绍一、机器学习的一般步骤链接:机器学习的一般步骤二、预处理数据链接:预处理数据三、交叉验证链接:交叉验证四、超参数优化五、文本数据处理将数据集拆分为数据和目标。 目标对应于类列。 对于数据,删除列fnlwgt,capitalgain和capitalloss。在这里插入代码片目标未编码。使用 sklearn.preprocessing.LabelEncoder 对类进行编码。在这里插入代码片创建一个包含分类列名称的列表。 同样,对数值数据也一原创 2021-02-21 17:09:28 · 1918 阅读 · 0 评论 -
机器学习1:scikit-learn简介(4)—— 超参数优化
scikit-learn的介绍一、机器学习的一般步骤链接:机器学习的一般步骤二、预处理数据链接:预处理数据三、交叉验证四、超参数优化五、文本数据处理将数据集拆分为数据和目标。 目标对应于类列。 对于数据,删除列fnlwgt,capitalgain和capitalloss。在这里插入代码片目标未编码。使用 sklearn.preprocessing.LabelEncoder 对类进行编码。在这里插入代码片创建一个包含分类列名称的列表。 同样,对数值数据也一样。在这里插原创 2021-02-12 23:27:35 · 902 阅读 · 0 评论