上次说到了效率的问题,现在已经解决了,还修复了不少的Bugs :-) 不过,查阅了一些文献后,发现了一个新的理论问题,还有一些关于Java中文分词组件选择上的问题。阅读全文>
发表于 @ 2008年03月27日 22:14:00|评论(loading...)|收藏
将文本信息按预先指定的类别归类的技术可以追溯到上世纪60年代。不过,在最近的10年里,由于文本信息数字化而带来的海量数据,导致我们不得不将这些信息进行分类。由此,文本信息的自动分类得到了广泛的关注和快速的发展。目前,文本自动分类算法基本都是基于概率统计模型的,例如贝叶斯分类算法(Naive Bayes,Bayes Network),支持向量机(SVM),最大熵模型(Maximum Entropy Model),K近邻算法(KMM)等等。本文就基于概率模型的朴素贝叶斯分类算法作了一些讨论,并根据理论描述使用Java语言构建了一个素朴贝叶斯分类器。实验表明,贝叶斯分类算法简单,可以取得了优良的分类效果。阅读全文>
发表于 @ 2008年02月20日 01:39:00|评论(loading...)|收藏
本文主要面向具体使用,适用于已熟悉java编程的lucene初学者。转自:http://www.360doc.com/showWeb/0/0/4289.aspx阅读全文>
发表于 @ 2008年02月19日 01:15:00|评论(loading...)|收藏
转自:http://www.cnblogs.com/xiaotie/archive/2005/08/28/224626.aspx阅读全文>
发表于 @ 2007年08月09日 22:55:00|评论(loading...)|收藏
Lucene 是Apache的一个基于Java的开放源代码的搜索软件包,也是目前最为流行的搜索软件包。但是对于绝大多数中文用户来说其提供的两个中文分析器 (ChineseAnalyzer和CJKAnalyzer)的能力又太弱了,因此我们有必要开发适合自己的中文分析器。这篇文章中给出了一个基于词典的简单的实现。
阅读全文>
发表于 @ 2007年07月31日 04:18:00|评论(loading...)|收藏
这是一篇相当不错的国外论文——Machine Learning in Automated Text Categorization(基于机器学习的文本自动分类技术)。我作为这个领域的初学者,正在尝试翻译这篇论文。大家如果感兴趣的话可以一起翻译,一起学习。阅读全文>
发表于 @ 2006年12月11日 13:56:00|评论(loading...)|收藏
这是一篇相当不错的国外论文——Machine Learning in Automated Text Categorization(基于机器学习的文本自动分类技术)。我作为这个领域的初学者,正在尝试翻译这篇论文。大家如果感兴趣的话可以一起翻译,一起学习。阅读全文>
发表于 @ 2006年12月08日 19:16:00|评论(loading...)|收藏
今天看了一些关于文本信息自动分类的文章,感触颇多。。。。
找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Italy。在学习的同时,做了一下翻译工作:-),以便和我一样对这个感兴趣的人一起学习,研究。。。。
阅读全文>
发表于 @ 2006年12月05日 01:16:00|评论(loading...)|收藏