数据挖掘
文章平均质量分 94
皖山文武
从容君子德 质朴古人风
展开
-
分类分析|KNN分类模型及其Python实现
KNN是一种基于类比学习的分类算法,其算法原理是在训练数据集中找出K个与预测样本距离最近且最相似的样本,这些样本大部分属于哪个类别,则该预测样本也属于哪个类别。原创 2024-04-24 22:39:55 · 1469 阅读 · 1 评论 -
时间序列预测之移动平均法预测模型
时间序列,也称为时间数列、历史复数或动态数列。它是将某种统计的指标数值按照时间先后顺序排列所形成的数列。根据时间序列所反映出来的发展过程、方向和趋势,进行类推和延伸,来预测下一时间或若干年以后达到的水平。时间序列预测其实是一种回归预测方法,属于定量预测。主要有移动平均预测法、指数平滑预测法、趋势性指数平滑法。原创 2024-04-17 21:02:05 · 2580 阅读 · 0 评论 -
数据挖掘|序列模式挖掘及其算法的python实现
序列模式的发现是由R.Agrawal于1995年首先提出的。序列模式寻找的是事件之间在顺序上的相关性。例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。对于保险行业,通过分析顾客不同次的购买行为发现,顾客本次购买重疾险,下次购买分红保险,则企业可以通过对重疾险销量的统计来预测分红险的销售量。 序列模式挖掘在交易数据库分析、Web访问日志分析以及通信网络分析等领域具有广泛的应用前景原创 2024-04-05 22:37:26 · 1439 阅读 · 0 评论 -
数据挖掘|关联分析与Apriori算法详解
关联规则分析(Association-rules Analysis)是数据挖掘领域的一个重要方法,它是以某种方式分析数据源,从数据样本集中发现一些潜在有用的信息和不同数据样本之间关系的过程。 关联是指在两个或多个变量之间存在某种规律性,但关联并不一定意味着因果关系。 关联规则是寻找在同一事件中出现的不同项目的相关性,关联分析是挖掘关联规则的过程。比如在一次购买活动中所买不同商品的相关性。原创 2024-04-03 22:46:22 · 3545 阅读 · 0 评论 -
分类分析|贝叶斯分类器及其Python实现
分类是数据挖掘的主要方法,通过有指导的学习训练建立分类模型。分类的目的是通过学习,得到一个分类函数或分类模型(也常常称作分类器),该模型能够把数据集中的对象映射到给定类别中的某一个类上。分类和回归都属于预测建模,分类用于预测可分类属性或变量,而回归用于预测连续的属性取值。原创 2024-03-31 19:00:06 · 2232 阅读 · 0 评论 -
聚类分析|基于密度的聚类方法DBSCAN及其Python实现
DBSCAN是基于密度聚类中的经典算法。突出特色在于:第一,利用小类的密度可达性(或称连通性),可发现任意形状的小类第二,聚类同时可以发现数据中的噪声,也即离群点 DBSCAN聚类中有两个重要参数:原创 2024-03-30 23:41:34 · 2003 阅读 · 0 评论 -
聚类分析|基于层次的聚类方法及其Python实现
层次聚类(Hierarchical Clustering)类似于一个树状结构,对数据集采用某种方法逐层地进行分解或者汇聚,直到分出的最后一层的所有类别数据满足要求为止。 当数据集不知道应该分为多少类时,使用层次聚类比较适合。 无论是凝聚方法还是分裂方法,一个核心问题是度量两个簇之间的距离,其中每个簇是一个数据样本集合。原创 2024-03-26 22:22:49 · 2290 阅读 · 1 评论 -
聚类分析|k-means聚类方法及其Python实现
k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法(Partitioning Method)是基于距离判断样本相似度,通过不断迭代将含有多个样本的数据集划分成若干个簇,使每个样本都属于且只属于一个簇,同时聚类簇的总数小于样本总数目。该方法需要事先给定聚类数以及初始聚类中心,通过迭代的方式使得样本与各自所属类别的簇中心的距离平方和最小,聚类效果很大程度取决于初始簇中心的选择。原创 2024-03-25 22:06:02 · 2850 阅读 · 0 评论 -
数据挖掘|数据预处理|基于Python的数据标准化方法
在数据分析之前,通常需要先将数据标准化(Standardization),利用标准化后的数据进行数据分析,以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。原创 2024-03-25 21:12:08 · 1450 阅读 · 0 评论 -
数据挖掘|数据集成|基于Python的数据集成关键问题处理
数据集成是把来自多个数据库或文件等不同数据源的数据整合成一致的数据存储。其中关键问题有:实体识别、数据冗余与相关性分析、记录重复、数据值冲突的检测与处理。原创 2024-03-21 23:33:27 · 1451 阅读 · 0 评论 -
数据预处理|数据清洗|使用Pandas进行异常值清洗
数据预处理|数据清洗|使用Pandas进行异常值清洗原创 2024-03-15 23:26:23 · 1766 阅读 · 0 评论 -
数据预处理|数据清洗|使用Pandas进行缺失值清洗
针对数据预处理中的数据清洗应用,使用Pandas对数据进行缺失值清洗。原创 2024-03-15 22:15:02 · 1162 阅读 · 0 评论