自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

percylee的专栏

...........................让互联网使你我他的生活更加美好!

  • 博客(5)
  • 收藏
  • 关注

原创 python读北大corpor的一段测试程序

    开始学着python,并为那个相似度开发包做准备.下面是一个小的测试程序:#corpor file reader#author: percylee#time: 2006/08class CorporFileReader:    """reader for corpor file, which is labeled just like pku-corpor of    Renmin

2006-08-30 10:55:00 1660

转载 网络新语

它们是如何产生的?坛子:论坛 打倒XXX:称赞某人。 XXX做了什么值得庆祝的事情,让人眼红,比如买到便宜货时,其他人表示祝贺的用词。有时为了强调,还会加上“再踏上一只脚”等等来表达强烈的祝贺。不过不熟悉的人之间慎用:)打PP:打屁股,打PG的温柔词,对某人做错事或说错话的小惩罚。严重**:与动词联用,表示强烈的情感,比如严重打倒,严重同情之类。亮骚:将心爱的东西展示给外人看或

2006-08-29 15:34:00 2052

原创 第二届计算语言学讲习班的感触

  刚从沈阳回来,参加了第二届计算语言学讲习班,感觉收获还是蛮大的,虽然沈阳之行太匆匆,哪里都没来得及去。这次讲习班的课程主要集中在三个方向,一是微软亚洲研究院的李航博士的统计机器学习,二是北大中文系的詹卫东博士的结合计算的汉语研究,三是计算所几位博士的搜索引擎原理介绍与利用开源工具的搜索引擎搭建。李航博士主要讲了统计学习的基本概念和原理,包括有监督学习和无监督学习,并把学习的概念定义

2006-08-22 17:08:00 2285

原创 关于文本相似度计算开发包的构想

 最近有一个想法,想用python实现一个小型开发包,以方便的实现并测试各种文本相似度计算算法,输入之一是一个精心建立的小型测试文本语料库,之二则是检索请求文本,输出则可以依据配置的相似度计算方法输出排好序的测试文本序列。因为相似度计算并排序是搜索引擎的核心之一,而对于一个成熟的搜索体系去实验各种想法是很不方便的,所以很想有这样一个工具。大体上可以分为这样几个模块: 统一数据

2006-08-12 11:51:00 3329 2

原创 search花絮之索引压缩

 搜索引擎的索引一般都是倒排数据。在海量数据中,索引本身的规模也是很可观的。例如对于一种比较复杂的索引数据,其保存了词语的文档标志、词频和位置序列,在30万规模的全文中,有些词语的索引数据达到100M级别。例如“汽车”在某篇文本中的信息为: 文本号  = 332权值 = 0.001456   - 位置0 - { 段号= 0, 句号= 0, 词号= 15 }    - 位

2006-08-01 15:28:00 1844 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除