Data Mining
mhd_on
这个作者很懒,什么都没留下…
展开
-
常用距离变量p-范数
闵可夫斯基距离 Minkowski distance 当时,表示曼哈顿距离当时,表示欧式距离(Euclidean distance)当时,原创 2013-06-28 08:56:58 · 1660 阅读 · 0 评论 -
关联分析(Apriori算法) 面包 牛奶 尿布 啤酒 ...
关联分析时,需要处理两个关键问题 1 大量数据集中发现模式,计算代价高 2 某些模式可能是虚假的,因为他们是偶然发生的 关联分析例题:从这个商品记录得出顾客喜欢同时购买那几样东西TID面包牛奶尿布啤酒鸡蛋可乐111000021011原创 2013-06-28 08:58:42 · 6718 阅读 · 0 评论 -
K-means聚类
作用:聚类数据:点集(数据集合) 初始化 k 个质心 ( 随机初始化 || 用层次分类 )i = 0;do 计算所有点到质心的距离 [ 当前质心集合 ] 取最近的质心作为点的所属类 得到分类后的点集 {P1, P2, ... , Pk} 根据点集分类 计算新的 k 个质心 [ 得到更新的质心原创 2013-06-28 18:25:17 · 540 阅读 · 0 评论 -
感知器
对于该感知器,神经元的激活函数(activation function)为sign(·)感知器模型的输出可以表示为 其中可看做是那么感知器模型可写作为感知器学习算法 权值的更新公式 k 次循环后第 i 个输入链上的权值,参数称为学习率(learning rate)原创 2013-06-28 08:58:03 · 539 阅读 · 0 评论 -
DBSCAN 聚类
数据:所需分类数据点 + 分类半径Eps + 分类密度1 将点分类 for 遍历点,进行分类【三类——噪声点、边界点 及 核心点】 if 当前点密度 则记为噪声点 else if 当前点密度 >= 分类密度 则记为核心点原创 2013-06-28 16:48:04 · 780 阅读 · 0 评论 -
[草稿] 相似度 相异度 (数据挖掘)
属性类型标称的 好 坏 员工编号序数的 1 2 3 4 5 6 ...区间或比率的 意味着数据时连续的 d=|x-y| s= -d 或 s=1/(1+d) 或 s=e^-d s= 1-(归一化的d) 闵可夫斯基距离 p=1 p=2 p=oo 非度量相异度:集合差A={1,2,3,4} B={2,3原创 2013-06-28 10:48:44 · 1008 阅读 · 0 评论 -
2013-1 数据挖掘简单整理
一. 数据 1 [草稿] 相似度 相异度 (数据挖掘) 2 常用距离变量p-范数二. 分类 1 决策树分类 2 最近邻算法KNN 3 感知器 4 朴素贝叶斯分类器 5 支持向量机 Support Vector Machine 概念原创 2013-06-27 18:20:42 · 492 阅读 · 0 评论 -
支持向量机 Support Vector Machine 概念
应用————分类&识别 等——可应对高维数据,避免维数灾难问题特点————使用训练实例的一个自己来表示决策边界,该子集称为“支持向量” 概念决策边界:可分类不同类样本的超平面。分类器的边缘:两个超平面之间的距离。最大边缘超平面:一个决策边界对应的两个超平面之间的距离(边界)最大, 具有较好的泛化能力。 最大边缘的基本原理:具有较大边缘的决策边界比男鞋具有较小边缘的决原创 2013-06-28 09:04:18 · 646 阅读 · 0 评论 -
朴素贝叶斯分类器 Naive Bayes Classifier
朴素贝叶斯分类器给定类标号 y ,朴素贝叶斯分类器在估计条件概率时假设属性之间条件独立。条件独立假设可形式化地表表述吐下:其中每个属性集包括个d 属性。 应用:分类测试记录时,朴素贝叶斯分类器对每个类 Y 计算后验概率:其中 和是定值,故最大时对应的Y 就是其所属类 相关资料:http://www.cnblogs.com/leoo2sk/archive/20原创 2013-06-28 08:57:20 · 799 阅读 · 0 评论 -
最近邻算法KNN
用于分类,对一个点,其分类是根据其最近K个对象的类别进行多数表决。对于一个测试样例,是数据,是类别,确定,得到集合,是个最近邻。确定满足公式:表示类别,最后返回使得式子能够达到最大值的相关测试例子: http://blog.sina.com.cn/s/blog_7fc305440101d0vr.html原创 2013-06-28 08:58:19 · 641 阅读 · 0 评论