自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 逻辑运算符 and 和 or 的运行返回机制

and 的返回机制:当所有值为真,返回最后一个真值;                当存在一个假值,返回第一个假值;or  的返回机制:当所有值为假,返回最后一个假值;                当存在一个真值,返回第一个真值;eg:在Python中   123 and 456结果是456而123 or 456结果是123。

2014-12-27 21:35:05 1319

转载 数据挖掘技术(五)——离群点检测

5 异常检测方法异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常

2014-12-27 10:25:35 1383

转载 数据挖掘技术(四)——聚类

4、聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习(也叫监督分类或分类):使用一个由类标号已知的对象开

2014-12-27 10:24:21 2395

转载 数据挖掘技术(三)——关联分析

3、关联分析3.1、基本概念 (1)通常认为项在事物中出现比不出现更重要,因此项是非对称二元变量。(2)关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X交Y=空。(3)由关联规则作出的推论并不必然蕴涵因果关系。它只表示规则前件和后件中的项明显地同时出现。(4)通常,频繁项集的产生所需的计算开销远大于规则产生所需的计算开销。(5)任何具有反单调性的度量都能够结合到数

2014-12-27 10:23:13 2175

转载 数据挖掘技术(二)——分类

2、分类1、过分拟合问题:造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很可能做出错误的预测)(3)多重比较也可能会导

2014-12-27 10:21:47 3591

转载 数据挖掘技术(一)——预处理

1、数据预处理数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。属性的类型:标称(定性的)(值仅仅是不同的名字,即只提供足够的信息以区分对象, 如雇员ID,性别)、序数(定性的)(值提供足够信息确定对象的序, ,如成绩,街道号码)、区间(定量的)(值之间的差别是有意义的,即存在测量单位 如日历日期,摄氏和华氏温度)、比率(定量的)(差和比率都

2014-12-27 10:20:01 1296

原创 trace(迹)的概念

设有矩阵A,Aij表示矩阵A的第i行第j列的数据。那么trace(A) = ,即主对角线元素之和。

2014-12-06 08:59:04 2140

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除