自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学经世致用之学,练锤炼仕艺之术

在路上,走向职业化!

  • 博客(12)
  • 资源 (11)
  • 收藏
  • 关注

原创 统计自然语言处理学习笔记(1)

 自然语言处理专业英语     学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发现自己的知识的缺乏.熟练掌握一门编程语言是最基本的,另外涉及到概率论、统计和语言学、汉字编码等诸多复杂问题。因为这些问题同时也是国际上的热点问题,在学习这些内容时不可避免的要遇到一些英语问题。本

2006-11-29 14:13:00 1631

原创 SegWord 的进展--词库结构

 词库结构:关于trie和hash的问题   看到词库的研究发展已到了一定的水平,感到很高兴.在网上看到了几个帖子,是关于词库结构的讨论,我个人觉得很有意思,进一步研究,有可能取得不错的成果,现将原帖及其讨论转载如下:percylee的原帖:目前对于词库结构的建立,一种普遍的倾向是使用trie结构,该结构使得对词库中词语的访问速度和词库规模无关(若词语的长度为n,则查询该词语的复杂度为

2006-11-25 18:58:00 1314

转载 编写简单的中文分词程序

 原作者: accesine一、词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:地区    82重要    81新华社    80技术    80会议    80自己    79干部    78职工    78群众    77没有    77今天    76同志    76部门    75加强    75组织    75第一列是词,第二列是权重

2006-11-23 18:57:00 2147 1

转载 中文分词技术

原作者:web_soa一、       为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、

2006-11-23 18:35:00 2370

转载 中文搜索引擎技术揭密:系统架构

 中文搜索引擎技术揭密:系统架构 作者Winter首发于e800.com.cn 【e800.com.cn 编者按】互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥 有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——

2006-11-23 15:38:00 1076

转载 中文搜索引擎技术揭密:网络蜘蛛

 中文搜索引擎技术揭密:网络蜘蛛 作者Winter 首发于e800.com.cn 【e800.com.cn 编者按】随着搜索经济的崛起,人 们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引 擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……而作为一个

2006-11-23 15:29:00 1091

转载 规范之细部内容

 规范之细部内容 1 分词规范 1.1 定义:具有独立意义,且扮演特定语法功能的字串. 根据定义,动词,名词,副词,定词,量词,介词,方位词,连接词,语助词,感叹词皆可依类一一断开.这些基本词类中,前五者,尤其是动词和名词的判定较复杂.原因有三:一,动词和名词皆另有词组形式,便有区分复合词和词组的问题.另外副词,定词,和量词也有类似的困扰.二,动词,名词是个开放性词集,随时都有新词产生.三

2006-11-23 15:15:00 1297

原创 「资讯处理用中文分词规范」设计理念及规范内容

「资讯处理用中文分词规范」设计理念及规范内容 一  摘 要      「资讯处理用中文分词规范」有下列两个突破1)提出分级的观念及确立信,达,雅三级的标准.最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作机器翻译,资讯检索等自然语言处理的标准;至於最需要人工分词才能达到的雅级则视为电脑处理,理解中文之最高目标.(2)把分词规范分成不变核心(分词单位

2006-11-23 15:10:00 1221

转载 中文搜索引擎技术揭密:中文分词

 中文搜索引擎技术揭密:中文分词 作者Winter首发于:e800.com.cn 前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。搜索引擎

2006-11-23 14:56:00 890

转载 中文分词和搜索引擎

 中文分词和搜索引擎(二)作者:Winter 工程师中文分词的算法中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例

2006-11-23 14:46:00 1050

转载 初识lucene(2)

Lucene基础排序算法:score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t)score_d: Document(d) 的得分sum_t: Term(t) 的总和tf_q: 查询中 t 的频度的平方根tf_q: d 中 t 的频度的平方根idf_t: log(numDocs/docFreq_t + 1) + 1.

2006-11-18 17:14:00 976

原创 初识lucene(1)

lucene的下载和测试    以前上过信息检索的课程,用的是教材Modern Information Retrieval的影印版.这本教材相当经典,讲述了许多非常经典的理论与方法,特别是老师独特的上课方式,以及老师本身对于信息检索领域的热情(用她自己的话说是very enjoy),这让我也对信息检索产生了浓厚的兴趣,对信息检索的各种模型也都较熟悉.然而,虽然日常用到了各种搜索引擎,但是并

2006-11-17 14:55:00 1885 3

Ontology-based Expertise Matching System within Academia

识别学术专长及其水平的方法

2007-10-12

论文:网络信息资源评价

论文原稿:网络信息资源评价

2007-10-12

自适应专长识别与共享模型研究

毕业论文原稿及下载

2007-08-03

网站信息构建(IA)决定因素分析

论文原稿及下载

2007-07-30

网络信息资源评价现状及构建研究

论文原稿及下载

2007-07-30

论数字图书馆门户建设

论文原稿及下载

2007-07-30

web2.0环境下的信息构建研究(一)——信息构建发展的新阶段

论文原稿与下载

2007-07-30

网站信息构建决定因素分析

论文原稿与下载

2007-07-30

网络信息资源评价现状及构建研究

论文原稿及下载

2007-07-30

论数字图书馆门户建设

论文原稿

2007-07-30

业余科研

业余科研

2007-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除