数据挖掘&机器学习
文章平均质量分 73
Java2King
淘宝。。。。数据平台
展开
-
k-means聚类算法的【java描述】
1. 什么是 k-means 聚类算法? 从网上找到了很多定义,这里选取比较典型的几个; K-Mean 分群法是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出 具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些 群中心,进行后续的处理,这些处理可以包含 1 )资料压缩:以少数的资料点来代表大量的资料转载 2009-09-27 13:57:00 · 1327 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法(下)
源代码下载:NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文转载 2010-01-08 10:06:00 · 2092 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法(上)
转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:[email protected] Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两转载 2010-01-08 10:04:00 · 1700 阅读 · 1 评论 -
关于推荐引擎的5个问题
2009年一月,在阿姆斯特丹举行了一个名为Recked的活动,活动由Wakoopa和Strands主办,旨在讨论工程师们感兴趣的推荐系统。在活动介绍的内容中,提出了一些公司对于建造有效的推荐系统必须解决的几个问题。1.缺少数据或许推荐系统面临的最大问题,是需要大量的数 据,以便能形成有效的推荐。现在能给出最好的推荐的公司正是那些拥有大量数据的公司:google,amazon,Netflix转载 2010-03-14 14:11:00 · 1245 阅读 · 0 评论 -
基于 Apache Mahout 构建社会化推荐引擎
Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化转载 2010-03-14 14:31:00 · 1280 阅读 · 0 评论 -
推荐系统:Slope One 算法
Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。 Slope One 算法试图同时满足这样的的 5 个目标: 1. 易于实现和维护:普通工程师可以轻松解释所有的聚合数据,并且算法易于实现和测试。 2. 运行时可更新的:新增一个评分项,应该对预测结果即时产生影响。 3. 高效率的查询响应:快速的执行查询,可原创 2010-03-14 12:51:00 · 7830 阅读 · 4 评论 -
推荐系统:协同过滤 之 Item-based Collaborative Filtering
说起 Item-based collaborative filtering,还有一段有意思的争论,是关于它的起源的。 GroupLens 研究小组的 Sarwar 教授等人,于2001年5月在香港召开的第 10 届 WWW 大会上,发表了题为《Item-based Collaborative Filtering Recommendation Algorithms》 的 paper[1]。现在看来转载 2010-03-14 12:49:00 · 1971 阅读 · 0 评论 -
A*算法详解
第一部分:A*算法简介 A*算法在人工智能中是一种典型的启发式搜索算法。 一、何谓启发式搜索算法: 在说它之前先提提状态空间搜索。状态空间搜索,如果按专业点的说法就是将问题求解过程表现为从 初始状态到目标状态寻找这个路径的过程。通俗点说,就是在解一个问题时,找到一条解题的过程可以从 求解的开始到问题的结果(好象并不通俗哦)。由于求解问题的过程中分枝有很多,主要是求解过程转载 2009-12-24 17:18:00 · 1375 阅读 · 0 评论 -
智能算法的通俗解释(转载)
在工程实践中,经常会接触到一些比较“新颖”的算法或理论,比如模拟退火,遗传算法,禁忌搜索,神经网络等。这些算法或理论都有一些共同的特性(比如模拟自然过程),通称为“智能算法”。它们在解决一些复杂的工程问题时大有用武之地。 这些算法都有什么含义?首先给出个局部搜索,模拟退火,遗传算法,禁忌搜索的形象比喻: 为了找出地球上最高的山,一群有志气的兔子们开始想办法。 1.兔原创 2010-01-25 16:10:00 · 1604 阅读 · 0 评论 -
模拟退火算法
模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。根据Metropolis准则,粒子在温度T时趋于平衡的概率为e-ΔE/(kT),其中E为温度T时的内能,ΔE为其改变量,k为Boltzmann常数。用固体退火模拟组合优化问题,将内能E模拟为目转载 2010-01-24 20:20:00 · 1321 阅读 · 0 评论 -
文本聚类算法Java实现
蛙蛙推荐:蛙蛙教你文本聚类摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。思路:计转载 2010-01-08 10:13:00 · 12172 阅读 · 4 评论