- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 数据挖掘算法与现实生活中的应用案例
如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感觉。本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例
2015-10-26 19:19:08 25777
原创 数据挖掘导论总结之分类技术
博主是浙江大学一名在校学生,现在把这几天读的《数据挖掘导论》中的几个常见的分类技术进行简要的总结汇报,做成PPT并截图,有什么不对的地方欢迎大家指正。
2015-10-18 20:21:36 1990
原创 数据挖掘导论学习笔记之分类基本概念、决策树与模型评估
分类分类任务的输入数据是记录的集合,每条记录也称实例或样例,用元组(x,y)来表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号。类标号在分类中是离散属性,回归确是一种预测建模任务,其中目标属性y是连续的。概念 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。 目标函数也称分类模型,具有以下目的:描述性建模。分类模型可以作为解释性工具,用于区
2015-10-11 22:05:12 2630
原创 数据挖掘导论笔记之探索数据
鸢尾花鸢尾花(Iris)数据集可以从加州大学欧文分校(UCI)的机器学习库中获取,包含150种鸢尾花的信息,每50种取自三个原味鸢尾花种之一:Setosa、Versicolour和Virgincia。每个花的特征用下面5种属性描述。萼片长度(厘米)萼片宽度 (厘米)花瓣长度(厘米)花瓣宽度(厘米)类 (Setosa、Versicolour和Virgincia) 花的萼片是花的外部结构,保
2015-10-11 17:04:55 1771
原创 基于贝叶斯算法的文本分类算法
基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别也有很多种,用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的,可以将X和C看作是随机变量,P(C|X)称为C的后验概率,与之相对的,P(C)称为C的先验概率。 根据贝叶斯公式,后验概率P(C|X)
2015-10-03 19:08:31 1298
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人