自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pennyliang的专栏

梁斌的博客

  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

原创 Rocchio算法( pronounced "Rockey-O")二分类

文本的相关性来自于文本中每个关键词和领域的相关性。假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。对于类A通过训练得到一个权重集合W={w1,w2,……..wn}。权重集合的特征提取,通过TF/IDF算法,每个词汇的权重即该词汇的信息熵。对于一个待分类的文本通过分词,数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。

2006-11-30 17:35:00 2862

原创 文本的分布情况(Littlefield, 2002)

 

2006-11-30 17:33:00 1418

原创 Rocchio算法 搜索引擎算法

 Rocchio算法其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如

2006-11-20 10:41:00 4694 1

原创 KNN,TC(text category)基本算法

kNN分类算法 kNN分类算法是一种传统的基于统计的模式识别方法。算法思想很简单:对于一篇待分类文档,系统在训练集中找到k个最相近的邻居,使用这k个邻居的类别为该文档的候选类别。该文档与k个邻居之间的相似度按类别分别求和,减去一个预先得到的截尾阈值,就得到该文档的类别测度。用kNN也表示所选k个最相近文档的集合,公式(11-9)刻画了上述思想[Yang and Liu,1999]。其中,x

2006-11-19 23:21:00 4725

原创 CF协作过滤简介,搜索引擎算法

 推荐系统是用来提供对于某个item进行针对性的预测和推荐。一般采用三种方式1) 基于规则的推荐,例如推荐当前销量高的商品。(非个性化),针对某个节日的特殊推荐。人工给与推荐规则。2) 经典的协作过滤方法,利用user,item的关系作为推荐的基础,基本内涵就是利用user的相似性,利用item的相似性,如果某个用户消费了某些item,那么和这个用户有类似消费特征的很有可能也需要消费该

2006-11-19 14:52:00 2838

原创 第三代搜索新锐困饶老搜索巨头[转]

转自http://www.ccw.com.cn/news2/internet/htm2006/20061115_223110_2.shtml计世网消息      搜索引擎是通向整个世界的兴趣和欲望的窗口,曾经,Google为我们打开了这扇窗,而今,仅仅开窗凭栏远眺已经远远无法满足人们对于 搜索引

2006-11-16 17:36:00 1678

原创 my search

2006-11-16 16:54:00 1183

原创 C++热身系列三[原创于百合]

 [本篇全文] [回复本文] [本篇作者: pennyliang] [本篇人气: 221]     0发信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标  题: 为什么减少程序空间复杂度对程序性能有改善?发信站: 南京大学小百合站 (Thu Nov  9 15:25:28 2006)热身系列3A)增加cache命中率B)减少内存与硬盘的对换,节约硬盘读写时间

2006-11-12 11:01:00 1538 1

原创 C++热身系列二[原创于百合]

 [本篇全文] [回复本文] [本篇作者: pennyliang] [本篇人气: 123]     0发信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标  题: 一句话说出下列代码执行结果,热身系列2发信站: 南京大学小百合站 (Thu Nov  9 14:22:04 2006)class A{  virtual void test(char* s)   {

2006-11-12 10:59:00 2264

原创 C++热身系列一[原创于百合]

信人: pennyliang (世界很美好,值得去奋斗), 信区: CPlusPlus标  题: 有趣的题目,找工作的人来热热身吧发信站: 南京大学小百合站 (Thu Nov  9 13:15:45 2006)令vect 为vector型的一个向量。现在需要遍历其全部元素,以下代码那个最好,那个有错误,你认为是否有更好的方法?1)for(size_t i = 0 ; i=0; --i){}4)fo

2006-11-12 10:58:00 2145

原创 专利分析[用于确定文档的含义以使文档和内容匹配的方法和系统]

     首先该专利表述了这么以下几个基本含义     1)一个文档,特别是有一定篇幅的文档,在每个自然段中包含至少一个特定的含义,这个和人的写作习惯,说话方式有关,或者说是局部性原理,就是提出一个话题后,会紧接着论述这个话题,而不会左右环顾而言它.而某些html页面由于追加的广告,这种分段分析的方法可以有效地去除不相关的概念,避免干扰。    2)为了提取文档的含义,通常需要了解文档每个

2006-11-12 10:38:00 1576

Topology-Calculation-Tuning本学期一份组内报告

这是一个在组内做的技术报告,从技术的观点,介绍了布局,计算和调优的工作,这些工作是一个工程师的必修课,这里以点带面的进行了展开,是为了表明,编代码不是盲目的写,而是要有计划,有层次,有把握地去写,我水平有限,这些只是自己的思考,因为我还刚上路呢。。。

2011-01-19

微软企业文化内训资料

微软企业文化内训资料,该资料主要介绍微软组织架构,价值观,管理理念等等

2010-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除