![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
风雪夜归子
风雪夜归子(Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对数据、Machine Learning和Artificial Intelligence有兴趣的童鞋可以一起探讨哦,个人CSDN博客:http://blog.csdn.net/u013719780?viewmode=contents
展开
-
数据挖掘之异常点检测
异常点检测方法一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。 异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇原创 2015-10-04 22:23:26 · 14144 阅读 · 0 评论 -
数据挖掘之数据预处理
数据预处理概论 数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化、二元化、变量变换。先来看看属性的类型。属性的类型:标称:(定性的)(值仅仅是不同的名字,即只提供足够的信息以区分对象, 如雇员ID,性别);序数(定性的)(值提供足够信息确定对象的序, ,如成绩,街道号码);区间(定量的)(值之间的差别是有意义的,即存在测量单位 如日历日期,摄氏和华原创 2015-10-04 10:25:59 · 2319 阅读 · 0 评论 -
数据挖掘之分类
数据挖掘之分类一、分类综述1、过分拟合问题:过拟合的原因:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很原创 2015-10-04 10:51:14 · 7852 阅读 · 1 评论 -
数据挖掘之聚类
聚类一、聚类综述 聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习(也叫监督分类或原创 2015-10-04 21:33:31 · 5375 阅读 · 1 评论 -
数据挖掘之关联分析
数据挖掘之关联分析1、基本概念(1)通常认为项在事物中出现比不出现更重要,因此项是非对称二元变量。(2)关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X交Y=空。(3)由关联规则作出的推论并不必然蕴涵因果关系。它只表示规则前件和后件中的项明显地同时出现。(4)通常,频繁项集的产生所需的计算开销远大于规则产生所需的原创 2015-10-04 16:33:13 · 10400 阅读 · 1 评论 -
Spectral Algorithm
Spectral Algorithm[转自网络,参考用]有关Spectral Algorithmsigchi结束之后,这两天看了下spectral algorithm的一些相关的paper。现在给大家简要介绍一下。有什么意见和建议板上提就好了。一. 为什么选这个题目?主要原因是去年在微软做的项目里用到了Spectral clustering,当时只是拿来用,转载 2015-10-07 20:26:26 · 1058 阅读 · 0 评论 -
Machine Learning Algorithms Study Notes(4)—无监督学习(unsupervised learning)
1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1.1.3 如何选择K值 1.1.4 Spark MLlib 实现 k-means 算法 1.2 Mixtur原创 2015-10-05 11:00:20 · 2255 阅读 · 0 评论 -
kd-tree
k-d树[1] (k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。K-D树是二进制空间分割树的特殊的情况。外文名k-dimensional树 简 称kd-tree 属 于分割k维数据空间的数据结构用 于多维空间关键数据的搜索 目录1原创 2015-09-28 11:28:21 · 1050 阅读 · 0 评论