自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据挖掘导论 笔记5

其他分类模型基于规则的分类器ri是规则,R=是规则集每一个分类规则可以表示为形式规则左边称为规则前件(rule antecedent)或前提(precondition)。它是属性测试的合取,即规则右边称为规则后件(rule consequent),包含预测类yi分类规则的质量可以用覆盖率(coverage) 和准确率(accuracy) 来度量覆盖率定义为D中满足规则r的记录所占的比例准确率或置信因子定义为类标号等于y占触发r的比例基于规则的分类器的工作原理互斥规则(Mutuall

2020-07-17 22:14:54 5894

原创 数据挖掘导论 笔记4

分类 (classification)分类任务 就是通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型(classfication model).分类模型可以用于以下目的。关键是结果是离散的。这正是区别分类与回归(regression) 的关键特征。回归是一种预测建模任务,其中目标属性y是连续的。比如Support Vector Regression和Support Vector Machine:SVR:输出wx+b,即某

2020-07-14 19:23:15 1113

原创 数据挖掘导论 笔记3

给定一个无序的、分类的值的集合,为了进一步刻画值的性质,除计算特定数据集中每个值出现的频率外没有多少的事情可做。给定一个在{1, … Vi, … Vk}.上取值的分类属性x和m个对象的集合,值vi的频率定义为:分类属性的众数(mode) 是具有最高频率的值。百分位数对于有序数据,考虑值集的百分位数(percentile) 更有意义。具体地说,给定-一个有序的或连续的属性x和0与100之间的数p,第p个百分位数x是一个x值,使得x的p%的观测值小于xp。例如,第50个百分位数是值x50%,使得x的所有

2020-07-11 16:26:11 5130

原创 数据挖掘导论 笔记2

第二章标题数据质量数据质量不一定好,比如测量值与实际值的差称为误差(error)。数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,噪声是测量误差的随机部分。这可能涉及值被扭曲或加入了谬误对象。图2-5显示被随机噪声干扰前后的时间序列。如果在时间序列上添加更多的噪声,形状将会消失。图2-6显示了三组添加一些噪声点(用“+”表示)前后的数据点集。注意,有些噪声点与非噪声点混在一起。完全消除噪声通常是困难的,许多数据挖掘工作关注设计鲁棒算法(robust

2020-07-09 18:32:47 1123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除