数据挖掘算法
GuanzhouKe
Stay hungry stay foolish
展开
-
大部分人都理解错了的FPgrowth算法
摘要 韩家炜教授等人提出FP-growth(Frequent Pattern growth)算法是频繁模式(Frequent Pattern, FP)挖掘领域的经典算法,其高效性能的背后是强大的信息压缩树——频繁模式树(Frequent Pattern Tree, FPTree),但在构建FPTree的过程中很容易忽略一些关键的步骤,如正确的频繁模式顺序(Frequent Pattern Ordering, FPO)和排序结果的稳定性,这篇文章从原论文出发,分析当前网络上高点击量的复现文章的不当之处,给出一原创 2020-06-02 20:59:30 · 1363 阅读 · 1 评论 -
简明聚类分析入门
摘要 : 以“为什么需要聚类分析这一问题”作为引入,逐步阐述聚类分析领域是如何发展的。这篇文章主要阐述聚类分析的四类方法:划分方法、层次方法、基于密度的方法和基于网格的方法的基本原理以及它们中的代表算法和实现方式。将聚类算法的设计总结为两大核心:划分过程和相似度量的设计。1 引言 聚类分析技术已经发展了近60年,至今该领域依旧非常活跃[1]^{[1]}[1]。聚类分析的地位与其他的机器学习理论,如分类,SVM等,有所不同。首先,聚类分析是一个多学科交织原创 2020-06-02 20:58:46 · 1511 阅读 · 0 评论 -
探索SMOTE算法
摘要SMOTE是一种综合采样人工合成数据算法,用于解决数据类别不平衡问题(Imbalanced class problem),以Over-sampling少数类和Under-sampling多数类结合的方式来合成数据。本文将以Nitesh V. Chawla(2002)的论文为蓝本,阐述SMOTE的核心思想以及实现其朴素算法,在传统分类器(贝叶斯和决策树)上进行对比算法性能并且讨论其算法改进的途径。1. 引言类别不平衡是一种在分类器模型训练过程中常见的问题之一,如通过大量胸透图片来学习判断一个人是否有原创 2020-06-02 20:55:27 · 1110 阅读 · 0 评论 -
KMeans原理实现及分析
摘要 KMeans是一种简单的对给定数据集将其划分成k个簇的聚类算法,数据挖掘十大算法之一,其数学原理也是非常的朴素。本文将根据KMeans的原理将其实现,并对其性能进行分析,讨论其缺陷与探讨业界主流的改进方式。1 引言 KMeans 算法的思想是由许多跨学科领域的研究者们经过长时间不断的交织出来的,但其第一次使用是由Lloyd(1957, 1982)所提出用于调制脉冲编码,关于KMeans的更多历史信息可在[2]中找到,KMeans提出之初因为其朴素算法涉及组合爆炸问题导致其是NP-Har原创 2020-06-02 20:54:48 · 1431 阅读 · 0 评论 -
[译]浅析t-SNE原理及其应用
声明: 本文转译自Data Camp上Manish Pathak的文章《Introduction to t-SNE》原文地址 译者注: 本文言简意赅的阐述了数据降维( Dimensionality Reduction technique)技术中PCA以及t-Distributed Stochastic Neighbor Embedding(t-SNE)算法的相关实现原理以及利弊,并且使用Python基于Fashion-MNIST数据集描述了对PCA以及t-SNE算法的基本应用。本人觉得相关概念阐述的比较翻译 2020-06-02 20:53:46 · 2972 阅读 · 0 评论 -
致敬真神——SVM
摘要 对于Support Vector Machine(SVM)你是否停留在调用相关算法包的层面?是否每次想要加深对SVM的理解时却被枯燥的公式劝退?本文将以SVM发展历史时间线为文章组织结构,让您理解SVM基本原理、发展的内在需求以及其公式背后的意义。0 引言 SVM自1964年被Vapnik等人提出以来,至今已经成为了重要的基准(Base Line)分类器之一。SVM最开始是被作为线性分类器提出原创 2020-06-02 20:51:10 · 1436 阅读 · 0 评论