机器学习
tbinjiayou
福建师范大学数计院计算机专业
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树算法
采用递归的分治法构造决策树,每次依据最优划分属性的属性值,将当前层的全集S划分为若干个子集,并采用相同方法对子集构造决策树。决策树算法包括两部分:树的构建和树的剪枝。怎样的决策树才是最优的?基本的原则是使最后构造出的决策树规模最小。基于这个基本原则,我们启发式地定义规则为使分割后得到的子节点纯度最大。于是属性选择规则问题就转化为了纯度定义的问题。利用熵(Entropy)的概念去描述“不原创 2013-03-13 15:51:17 · 8587 阅读 · 0 评论 -
K-means聚类算法
算法思想为了将集合S分成k个类,可以先选取k个中心点,将S中样本划分到其中的某个类别中,然后对划分的k个类重新选择中心点,进而重新划分,直至中心点稳定。算法伪代码List K_means(DataSet S, int k){ List new_centrio_list = Select_init_centriole(S, k); // 选取初始的k个中心点 do { ce原创 2013-03-15 11:33:15 · 6100 阅读 · 1 评论 -
信息检索和网络数据挖掘领域论文技术基础
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。我所转载 2013-03-31 13:05:17 · 725 阅读 · 0 评论 -
贝叶斯分类
基本原理 贝叶斯分类是基于贝叶斯公式的一种分类方法,它是通过先验知识和似然函数来估计后验概率。其公式如下:P(H | X) = P(X | H)*P(H) / P(X),其中H是假设,在分类中也就是判定的某种类别,X是证据向量,在分类中也就是n维的特征向量值,一般写作X=(x1, x2, ..., xn)。 因此对于一个给定的X,我们可以通过贝叶斯公式针对每种假设H原创 2013-03-19 16:08:24 · 4503 阅读 · 1 评论 -
Apriori算法
挖掘频繁模式是挖掘频繁出现在数据集中的模式。Apriori算法是用于挖掘频繁项集的经典方法。所谓频繁项集也就是出现频度不低于最小支持度阈值support的项集,support可以是绝对支持度(频度),也可以是相对支持度(频率)。支持度support:包含该项集或者模式的样本在全体样本中出现的次数(绝对)或所占的比例(相对)。Apriori算法原理 为了挖掘频繁K项集,用Lk原创 2013-03-20 19:32:39 · 1313 阅读 · 0 评论
分享