数据挖掘技术
文章平均质量分 94
大懒人一个
这个作者很懒,什么都没留下…
展开
-
数据挖掘之DBSCAN算法(头歌)
数据为一份信用卡用户行为数据,这里我们已经将其数据化,一共有105个用户,每一个用户都记录了两个特征,其中5个异常用户,部分数据如下:数据获取代码如下:在这里,我们使用sklearn中的方法自己制作了一份数据,一共100个样本。原创 2024-04-23 09:01:52 · 925 阅读 · 0 评论 -
数据挖掘之K均值(K-means)
头歌平台数据挖掘之kmeans原创 2024-04-16 09:27:43 · 533 阅读 · 0 评论 -
数据挖掘之KNN算法
虽然一下子介绍了很多,但大家肯定还是觉得不明就里,但是不用着急,距离的定义在机器学习中是一个核心概念,在之后的学习中还会经常遇到它。在这里介绍距离的目的一个是为了让大家使用k近邻算法时,如果发现效果不太好时,可以通过使用不同的距离定义来尝试改进算法的性能。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。但实际上这里所说的距离与我们日常生活中所意识到的距离是不同的。算法的另一个核心参数是距离函数的选择。假设标准化后的特征为z,标准化之前的特征为x,特征的均值为μ,方差为s。原创 2024-04-11 14:03:43 · 1067 阅读 · 1 评论 -
数据挖掘之决策树
头歌平台数据挖掘课程实验三——决策树原创 2024-03-28 10:36:59 · 702 阅读 · 1 评论 -
数据挖掘之Apriori算法
假设有15个候选3-项集: {1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}, {1 5 9}, {1 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8}所有的候选项集都存放在hash树的叶结点中。基于遍历的支持度计算非常耗时间,而基于 hash 的支持度计算可以将所有候选项集以 hash 结构中,每条事务只需要匹配其对应桶里的候选项集,从而节省时间开销。原创 2024-03-19 09:40:23 · 1185 阅读 · 0 评论 -
头歌平台数据挖掘之数据预处理
在这里,将data_x和data_y两个DataFrame进行拼接,形成一个新的DataFrame,其中data_x作为第一列,data_y作为第二列。平台将读取数据集,并将所有数据按属性列分别进行0-1规范化,并将规范化后的结果保存到csv文件,与正确结果进行比较,完全一致则返回True,否则返回False。为了消除指标之间的量纲和取值范围差异的影响,需要进行规范化(归一化)处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。本关任务:计算数据中各属性与类别的皮尔森相关性系数。原创 2024-03-12 09:03:49 · 1561 阅读 · 1 评论