我要去桂林-田春峰

田春峰的IT网志

实现文本自动分类的基础----Term频率计算方法

 实现文本自动分类的基础----Term频率计算方法    据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时...

2005-01-26 23:05:00

阅读数 3694

评论数 3

通过分析html格式确定网页主体内容的想法

通过分析html格式确定网页主体内容的想法    做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最...

2005-01-23 22:05:00

阅读数 3197

评论数 6

一种面向搜索引擎的中文切分词方法

一种面向搜索引擎的中文切分词方法    首先说一下搜索引擎切分词的产生的原因。    在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法...

2005-01-08 11:51:00

阅读数 11345

评论数 5

计算所汉语词法分析系统ICTCLAS 字典格式解析(字典格式说明)

     在 计算所汉语词法分析系统ICTCLAS 字典格式解析  一文中简单介绍了一下 ICTCLAS 。本来是要把字典格式一并写上去,无奈不知道怎么描述这个格式,现在终于写出了第一个Java版本的代码,也理清了思路。这个文件格式可以这样来描述:    先用文字描述一下:    ictclas的...

2005-01-03 12:32:00

阅读数 4199

评论数 1

提示
确定要删除当前文章?
取消 删除