数据挖掘
文章平均质量分 87
褪色的博客
记录和分享学习过程中学到的知识
展开
-
密度峰值聚类算法DPC(Density Peak Clustering)理论基础与python实现
基于密度峰值的聚类算法全称为基于快速搜索和发现密度峰值的聚类算法(clustering by fast search and find of density peaks, DPC)。它是2014年在Science上提出的聚类算法,该算法能够自动地发现簇中心,实现任意形状数据的高效聚类。密度峰值聚类算法是对K-Means算法的一种改进,是一种不需要迭代的,可以一次性找到聚类中心的方法聚类方法。原创 2023-04-06 23:01:34 · 9946 阅读 · 20 评论 -
详解DBSCAN聚类算法并基于python实现
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种无监督的ML聚类算法,是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。原创 2023-04-05 22:38:44 · 2153 阅读 · 2 评论 -
基于k-means实现鸢尾花聚类
与有监督学习相比,无监督学习的样本没有任何标记。无监督学习的算法需要自动找到这些没有标记的数据里面的数据结构和特征。对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大原创 2022-05-15 16:18:14 · 20841 阅读 · 2 评论 -
基于sklearn的线性回归实现房价预测
经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。线性回归是回归模型中最简单的一种。 本教程使用PaddlePaddle建立起一个房价预测模型。原创 2022-05-15 16:00:05 · 6052 阅读 · 0 评论 -
Python实现海量文件遍历
使用Python实现对一个目录下所有文件的遍历,并统计出不同类型文件的数目;这个技巧对与海量的数据分析有很大的帮助,可以预先通过该技巧得到文件的大致类别和数量,对随后做数据预处理提供支持;原创 2022-05-15 15:29:49 · 893 阅读 · 0 评论 -
逻辑回归手动实现(logistic regression)
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。原创 2022-05-15 12:11:11 · 2057 阅读 · 5 评论 -
基于最大参与率挖掘稀有特征的co-location模式
在传统的基于团的挖掘算法中,参与率和参与度会随着co-location模式阶的增大而单调递减,根据单调性可以对co-location模式挖掘进行有效的剪枝。然而,如果在稀有空间特征存在的数据集合中挖掘co-location模式,用传统的方法将导致一些有趣的co-location模式被排除了。挖掘带有稀有空间特征的co-location模式的意义在于当一个模式中存在稀有特征时,仍能够准确的挖掘频繁co-location模式。原创 2022-04-03 20:13:51 · 1134 阅读 · 0 评论 -
空间co-location模式挖掘基于无连接Join-Less原理与实现
基于无连接join-less算法的空间co-location模式挖掘算法原理与实现。一种非连接的算法基于无连接Join-Less的原理与实现,提出一种物化模型:星型邻居物化模型,可以通过这种物化模型生成候选co-location模式。原创 2022-03-12 18:00:00 · 1185 阅读 · 0 评论 -
朴素贝叶斯原理及实现
贝叶斯朴素贝叶斯分类问题数据挖掘机器学习原创 2022-03-10 21:30:47 · 1228 阅读 · 0 评论 -
空间co-location模式挖掘基于全连接Join-Base原理与实现
简单来说该文章就是将apriori算法应用到空间模式的挖掘,将事务篮子换为co-location模式,将事务等价为行实例和表实例。引入参与率和参与度来等价支持度。频繁项的挖掘和关联规则的生成还是遵循apriori算法的步骤和核心思想,即先验原理(频繁模式的子集一定是频繁的,非频繁模式的超集一定是不频繁的)原创 2022-03-08 15:52:05 · 1563 阅读 · 9 评论 -
决策树理论与实现
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入决策树理论放贷的举例信息熵与信息增益信息熵具体实例欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown原创 2022-03-04 17:29:42 · 897 阅读 · 0 评论