Machine Learning
文章平均质量分 69
纳米团队
很多事情现在不做,就再也不会做了
展开
-
Kmeans
1 基本思想KMeans算法的基本思想就是将未知的数据集通过一定的相似性度量将未知类别的数据集自然地划分为K个数据集合,使得衡量标准达到比较好的值或者数据集合中心(采用均值)不变。也就是把n的对象根据他们的属性分为k个分割,k 。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。2原创 2013-04-22 23:56:40 · 623 阅读 · 0 评论 -
pagerank
1基本思想 通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外,PageRank 还会评估每个投票网页的重要性,因为某原创 2013-04-24 00:14:44 · 743 阅读 · 0 评论 -
朴素贝叶斯
1基本思想朴素贝叶斯法是基于贝叶斯定理和特征条件独立性假设的分类方法。对于给定的数据集,首先基于特征条件的独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入X,利用贝叶斯定理求出后验概率最大的输出Y。2举例确定x=(2,S)的标记y,其中X1,X2为特征,取值的集合为{1,2},{S,M},Y为类标记{1,-1}。训练数据(经验数据):1原创 2013-04-20 23:50:20 · 773 阅读 · 0 评论 -
KNN算法
1 基本思想 所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。2 举例(借用大神们的图例) 如上图所示,有两种类型的数据三角形和距形,待测数据为原形,需要判断原型数据是属于哪种类型的数据。 我原创 2013-04-20 23:24:05 · 1456 阅读 · 0 评论 -
数据集
来自互联网:1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.tas转载 2013-07-13 18:47:33 · 953 阅读 · 0 评论