![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
web算法
AngelAndAngel
这个作者很懒,什么都没留下…
展开
-
PageRank算法java实现版本
PageRank算法是Google的核心搜索算法,在所有链接型文档搜索中有极大用处,而且在我们的各种关联系统中都有好的用法,比如专家评分系统,微博搜索/排名,SNS系统等。 PageRank算法的依据或思想: 1,被重要的网页链接的越多(外链) ,此网页就越重要 2,此网页对外的链接越少越重要 这两个依据不能是独立的,是需要一起考虑的。但是问题来了,我...原创 2012-05-16 16:03:49 · 279 阅读 · 0 评论 -
聚类算法之单链接算法java实现
聚类算法中基于链接的算法大致有三种:单链接算法(single link),平均链接算法(average link),最小生成数算法(minimum spanning tree)。现在实现单链接算法,其他算法以后再续吧。 单链接算法的过程是 首先生成各个元素的距离矩阵,根据距离和阀值的比对来控制生成的聚类个数,阀值越大,生成的聚类越少,直到同属一类。 下面...原创 2012-07-05 10:09:39 · 484 阅读 · 0 评论 -
聚类算法之MST算法 java实现版本
在介绍最小生成树算法(MST)之前,简单说一下平均链接算法(average-link)的实现过程,平均链接聚类算法和单链接类似,多了计算聚类之间距离矩阵的步骤 实现步骤如下: [list] [*]1,将元素各成一组,把这些组放入容器H [*]2,循环元素距离数组,根据两层下标得到将要比较的两个元素A,B [*]3,在H中分别查找含...原创 2012-07-17 14:20:49 · 302 阅读 · 0 评论 -
怎样通过词频得到这个词频的排序?
在大规模检索中,我们怎样通过已经的词频得到词频的排序? 通俗点讲,就是当我知道“java”这个词的频率是x,那么"java"到底在排在第几位呢? 大规模数据中,有一个重要的法则叫“齐普夫法则”,它描述为第k个出现次数最多的词汇,它的词频与1/k成正比。这个法则的发现过程一点都不科学,齐普夫是这样干的:找到一本大部头的书籍,统计不同词汇出现的次数并排序,发觉词频的排序乘以出现...2012-12-03 14:35:02 · 403 阅读 · 0 评论 -
Mahout各种推荐器的主要特点
Mahout有很多推荐的实现,各有特点,在这里一并记录。 GenericUserBasedRecommender: 基于用户的推荐,用户数量相对较少时速度较快。 GenericItemBasedRecommender:基于物品的推荐,物品数量较少时速度较快,外部提供了物品相似度数据后会更加有效率。 SlopeOneRecommender:基于slope-one...2012-12-06 15:17:37 · 227 阅读 · 0 评论 -
聚类算法之kmeans算法java版本
聚类的意思很明确,物以类聚,把类似的事物放在一起。 聚类算法是web智能中很重要的一步,可运用在社交,新闻,电商等各种应用中,我打算专门开个分类讲解聚类各种算法的java版实现。 首先介绍kmeans算法。 kmeans算法的速度很快,性能良好,几乎是应用最广泛的,它需要先指定聚类的个数k,然后根据k值来自动分出k个类别集合。 举个例子,某某教练在得到...原创 2012-04-22 21:34:53 · 532 阅读 · 0 评论 -
贝叶斯文本分类 java实现
昨天实现了一个基于贝叶斯定理的的文本分类,贝叶斯定理假设特征属性(在文本中就是词汇)对待分类项的影响都是独立的,道理比较简单,在中文分类系统中,分类的准确性与分词系统的好坏有很大的关系,这段代码也是试验不同分词系统才顺手写的一个。 试验数据用的sogou实验室的文本分类样本,一共分为9个类别,每个类别文件夹下大约有2000篇文章。由于文本数据量确实较大,所以得想办法让每次训练的结...2012-09-25 15:15:33 · 518 阅读 · 0 评论