数据挖掘
小鹅鹅
兴趣使然
展开
-
HIN 异构信息网络(Heterogeneous Information Network)
信息网络(Information Network)信息网络可以用一个有向图G = (V, E) 来表示,其中V代表 Object,E代表 Edge。并且用映射函数 ϕ : V → A 来表示每一个object v ∈ V 属于object类型集合A: ϕ(v) ∈ A,用映射函数ψ : E → R.表示每条边 e ∈ E 属于边的类型集合R: ψ(e) ∈ R。如下图1所示:异构信息网络 网络模式元路径/元图原创 2017-11-03 11:51:06 · 19800 阅读 · 0 评论 -
线性判别分析(Linear Discriminant Analysis, LDA) 学习笔记 + matlab实现
综述线性判别分析 (LDA)是对费舍尔的线性鉴别方法(FLD)的归纳,属于监督学习的方法。LDA使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。LDA的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新原创 2017-12-09 13:56:01 · 13632 阅读 · 3 评论 -
PCA主成分分析学习笔记 + Matlab实现
综述PCA (Principal Component Analysis) 主成分分析代码实现原创 2017-10-15 15:00:55 · 6314 阅读 · 0 评论 -
AdaBoost (Adaptive Boosting) 自适应增强 简单理解算法与matlab实现
综述AdaBoost学习算法用于提高简单学习算法的分类性能。它通过组合一组弱分类函数(具有较高分类错误的弱分类器)来形成更强的分类器。最后的强分类器采用弱分类器加阈值的加权组合的形式。AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感,但在一些问题中,AdaBoost方法相对于大多数其它学习算法而言,不会很容易原创 2018-02-03 20:19:37 · 2480 阅读 · 0 评论 -
使用sklearn 实现 Logistics Regression 分类
使用Pandas 数据清洗特征选择 + sklearn 实现 Logistics Regression 分类(记录一次Data Mining作业) 关于LR基础可以看这里数据描述与分析我们有这么一个数据集,记录学生在教务网站上看某学科的视频流数据来预测学生是否挂科。(这之间有关系吗..) user_id: Identifies the individual who is ...原创 2017-11-26 11:43:26 · 13682 阅读 · 0 评论