- 博客(7)
- 资源 (2)
- 收藏
- 关注
转载 WEKA使用教程(经典教程转载)
WEKA使用教程目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时we
2015-05-28 22:45:49 654
转载 基本Kmeans算法介绍及其实现
1.基本Kmeans算法[1]选择K个点作为初始质心repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心until 簇不发生变化或达到最大迭代次数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数2.注意问题(1)K如何确定 kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所
2015-05-21 14:59:15 713
转载 随机游走模型(Random Surfer Model)
《这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank 算法在内的很多链接分
2015-05-21 14:12:31 8894
转载 BIRCH算法学习
1.BIRCH算法概念 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)全称是:利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的,参考文献1。首先,BIRCH是一种聚类算法,它最大的特点是能利用有限的内存资源完成对大数据集的高质量的聚类,同时通过
2015-05-21 10:38:55 657
转载 特征选择算法之开方检验
转载:特征选择算法之开方检验前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,
2015-05-12 15:51:15 490
转载 特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带
2015-05-11 22:33:58 2192
转载 信息增益,信息增益率,Gini
话说今天《机器学习》上课被很深地打击了,标名为“数据挖掘”专业的我居然连个信息增益的例子都没能算正确。唉,自看书以来,这个地方就一直没有去推算过,每每看到决策树时看完Entropy就直接跳过后面增益计算了。因而,总想找个时间再回过来好好看一下,这不,被逼上了呢。神奇的墨菲定律呢:你担心它发生的,它就一定会发生。回正题了,这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info
2015-05-11 22:12:12 879
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人