自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 分类——决策树模型

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树是一种预测模型,对未标识的实例进行分类;也是一种描述性模型,标识哪些诶特在可以将实例从不同类里区分不来。决策树分类器是基于信息熵的学习。决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。决策树原理和问答判断相似,根据一系列数据,判断是否,然后给出问题答案。因此决策树分类器的可解释性质较好。决策树学习用损失函数表示这一目标,其损失函数

2020-10-23 15:22:06 4625

原创 数据预处理——邻近度

邻近度(proximity)两个对象之间的相似度和相异度。相似度(similarity):衡量两个对象相似程度的数字度量,通常在0(不相似)和1(完全相似)之间。相异度(dissimilarity):又称为距离,衡量两个对象差异程度的数值度量,对象越类似相异度越低。通常[0,1]之间取值,但也有0到正无穷取值。相似性和相异性之间可以进行转化。s作为相似度符号;d作为相异度符号。1.针对单一属性类型的邻近度测量x,y是两个对象2.序数属性的邻近度测量序数属性,比如“差、一般、还ok、好、非

2020-10-09 16:28:32 3554

原创 数据预处理——数据特征选择

数据类型——面对什么数据数据质量——数据有什么问题数据预处理——如何解决数据问题数据量化表示——相似和相异如何量化表示数据类型和质量数据集:一个基本数据集是由对象和属性构成属性和度量变量1.绝对的:不同类别、有序的类别2.相对的:有意义的距离、完全的0测量常常是表示数据和现实之间的关系,不能完全的反映。**测量标度(measurement scale)**将数值或符号和对象的属性相关联的规则或函数,将一个值和一个特定对象的特定属性相关联。不同属性在、适用范围和操作方式上存在显著

2020-10-09 14:06:56 874

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除