![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
textmining
文章平均质量分 71
HUGEHEADHUGE
这个作者很懒,什么都没留下…
展开
-
文本关键词的提取算法实验[又是转的]
近期刚刚开始进入 SE 的领域,觉得这里面确实有很多值得研究的东西,从 网络爬虫 到 网页信息的抽取 再到 文本关键词的提取 以及用户检索(个性化SE) 等等 包罗万象。 下午玩完,先来无事,再次浏览了一下 蛙蛙池塘 的博客,觉得里面的对关键词的提取算法还不错,所以个人又在上午实验的基础上,完善了下这部分。 对于该部分,蛙蛙池塘 的实现我觉得有一点是不合理的(个人意转载 2010-04-29 15:11:00 · 1415 阅读 · 0 评论 -
一个简单实用的文本分类步骤说明[firefly]
感觉上来说,这个是我见过的描述文本分类的最通俗易懂的说明 。 文本分类具体方法:*选取20K个文本,每个文本大于10K。*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点,(去掉停用词,这里需要停用词词表,简化同义词)。*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。*用weka打开。强烈建议用转载 2010-04-29 15:24:00 · 971 阅读 · 0 评论 -
教你文本聚类(参考http://www.kuqin.com/searchengine/20080511/8323.html)
参考 蛙蛙池塘 的 教你文本聚类 一文http://www.kuqin.com/searchengine/20080511/8323.html 以 Java 代码的形式予以实现。一下为我对此文的理解及源码。 摘要:文本聚类是搜索引擎和语义web的基本技术,本文和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是转载 2010-04-29 17:43:00 · 1628 阅读 · 0 评论 -
ti-idf算法,实现对英文文档的检索,把多篇文档中的词(英文单词),按照权值从小到大进行排列
#include #include #include #include struct Ttree { char data[20]; double weight; double num; //一篇文献中的某一索引词出现的次数 double max; //一篇文献的总字数 double n; //索引原创 2010-04-29 18:25:00 · 1905 阅读 · 0 评论 -
cache hierarchies
cache层级化主要是为了提高命中率,cache无论是容量还是性能都是有限的,假如cache miss了,从neighbor cache获取内容一般来讲比从origin server好: 可以节约延迟和WAN的带宽。层级化意味着多个cache,cache之间常见的关系是两种:parent-child, sibling-sibling , neighbor 和 peers的意义比较自由,可转载 2011-06-19 16:13:00 · 720 阅读 · 0 评论