- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 Rocchio算法( pronounced "Rockey-O")二分类
文本的相关性来自于文本中每个关键词和领域的相关性。假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。对于类A通过训练得到一个权重集合W={w1,w2,……..wn}。权重集合的特征提取,通过TF/IDF算法,每个词汇的权重即该词汇的信息熵。对于一个待分类的文本通过分词,数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。
2006-11-30 17:35:00 2862
原创 Rocchio算法 搜索引擎算法
Rocchio算法其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如
2006-11-20 10:41:00 4694 1
原创 KNN,TC(text category)基本算法
kNN分类算法 kNN分类算法是一种传统的基于统计的模式识别方法。算法思想很简单:对于一篇待分类文档,系统在训练集中找到k个最相近的邻居,使用这k个邻居的类别为该文档的候选类别。该文档与k个邻居之间的相似度按类别分别求和,减去一个预先得到的截尾阈值,就得到该文档的类别测度。用kNN也表示所选k个最相近文档的集合,公式(11-9)刻画了上述思想[Yang and Liu,1999]。其中,x
2006-11-19 23:21:00 4725
原创 CF协作过滤简介,搜索引擎算法
推荐系统是用来提供对于某个item进行针对性的预测和推荐。一般采用三种方式1) 基于规则的推荐,例如推荐当前销量高的商品。(非个性化),针对某个节日的特殊推荐。人工给与推荐规则。2) 经典的协作过滤方法,利用user,item的关系作为推荐的基础,基本内涵就是利用user的相似性,利用item的相似性,如果某个用户消费了某些item,那么和这个用户有类似消费特征的很有可能也需要消费该
2006-11-19 14:52:00 2838
原创 第三代搜索新锐困饶老搜索巨头[转]
转自http://www.ccw.com.cn/news2/internet/htm2006/20061115_223110_2.shtml计世网消息 搜索引擎是通向整个世界的兴趣和欲望的窗口,曾经,Google为我们打开了这扇窗,而今,仅仅开窗凭栏远眺已经远远无法满足人们对于 搜索引
2006-11-16 17:36:00 1678
原创 C++热身系列三[原创于百合]
[本篇全文] [回复本文] [本篇作者: pennyliang] [本篇人气: 221] 0发信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标 题: 为什么减少程序空间复杂度对程序性能有改善?发信站: 南京大学小百合站 (Thu Nov 9 15:25:28 2006)热身系列3A)增加cache命中率B)减少内存与硬盘的对换,节约硬盘读写时间
2006-11-12 11:01:00 1538 1
原创 C++热身系列二[原创于百合]
[本篇全文] [回复本文] [本篇作者: pennyliang] [本篇人气: 123] 0发信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标 题: 一句话说出下列代码执行结果,热身系列2发信站: 南京大学小百合站 (Thu Nov 9 14:22:04 2006)class A{ virtual void test(char* s) {
2006-11-12 10:59:00 2264
原创 C++热身系列一[原创于百合]
信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标 题: 有趣的题目,找工作的人来热热身吧发信站: 南京大学小百合站 (Thu Nov 9 13:15:45 2006)令vect 为vector型的一个向量。现在需要遍历其全部元素,以下代码那个最好,那个有错误,你认为是否有更好的方法?1)for(size_t i = 0 ; i=0; --i){}4)fo
2006-11-12 10:58:00 2145
原创 专利分析[用于确定文档的含义以使文档和内容匹配的方法和系统]
首先该专利表述了这么以下几个基本含义 1)一个文档,特别是有一定篇幅的文档,在每个自然段中包含至少一个特定的含义,这个和人的写作习惯,说话方式有关,或者说是局部性原理,就是提出一个话题后,会紧接着论述这个话题,而不会左右环顾而言它.而某些html页面由于追加的广告,这种分段分析的方法可以有效地去除不相关的概念,避免干扰。 2)为了提取文档的含义,通常需要了解文档每个
2006-11-12 10:38:00 1576
Topology-Calculation-Tuning本学期一份组内报告
2011-01-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人