![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 86
JZYshuraK
全力以赴,深自缄默,接受事与愿违
展开
-
【Educoder数据挖掘实训】用SMC相似度计算文本之间的相似度
还是计算文本之间相似度的实训,跟前两关区别不大。原创 2024-03-14 21:03:59 · 839 阅读 · 0 评论 -
【Educoder数据挖掘实训】用Jaccard系数计算文本之间的相似度
挖挖挖原创 2024-03-14 11:10:09 · 460 阅读 · 0 评论 -
【Educoder数据挖掘实训】用Cosine计算相似度
开挖开挖原创 2024-03-14 10:12:36 · 608 阅读 · 0 评论 -
【Educoder数据挖掘实训】用广义Jaccard系数计算相似度
相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。比如两种水果,将从颜色,大小,维生素含量等特征进行比较相似性。这里的相似度有点类似于我们之前提到过用值域法筛选异常值时候的参数,当然还是有很大区别的。原创 2024-03-13 20:16:55 · 1410 阅读 · 0 评论 -
【Educoder数据挖掘实训】相似度与相异度
开挖!!!!!!原创 2024-03-13 15:58:31 · 898 阅读 · 0 评论 -
【Educoder数据挖掘实训】插值填充法处理遗漏值
这关的介绍非常详细,只要看懂了基本就没有问题。所谓插值其实就是根据已有的数据构造出函数,然后用这个函数来计算遗漏的数据。原创 2024-03-11 10:25:32 · 1440 阅读 · 0 评论 -
【Educoder数据挖掘实训】冗余值的处理
开挖!原创 2024-03-05 11:30:22 · 1835 阅读 · 0 评论 -
【Educoder数据挖掘实训】异常值检测-值域法
这个题中$lof$算法给的很抽象,先用比较通俗的方式说一下:首要想法是找到不合群的点,也就是**异常点**。采用的方法是对**局部可达密度**进行判断。相较于其他普通的简单基于聚类的算法,这个算法有两个优点:原创 2024-03-04 15:19:19 · 1397 阅读 · 0 评论 -
【Educoder数据挖掘实训】异常值检测-3σ法
开挖!原创 2024-03-01 20:00:16 · 1193 阅读 · 0 评论 -
【Educoder数据挖掘实训】异常值检测-箱线图
开挖!关于**箱线图**,核心理念就是找出上四分位数和下四分位数,定义二者的差为$IQR$。上下四分位数分别向上下扩展$1.5IQR$定义为上界和下界,在此之外的数据被认为是异常数据。原创 2024-03-01 09:16:01 · 1479 阅读 · 0 评论 -
【Educoder数据挖掘实训】了解数据
开挖。原创 2024-02-29 20:33:52 · 798 阅读 · 0 评论