当前搜索:

朴素贝叶斯中文文本分类器的研究与实现(2)[88250、zy、Sindy原创]

转载请保留作者信息:作者:88250Blog:http:/blog.csdn.net/DL88250MSN & E-mail & QQ:DL88250@gmail.com作者:zyBlog:http:/blog.csdn.net/zyofprogrammer作者:SindyE-Ma...
阅读(26167) 评论(18)

朴素贝叶斯中文文本分类器的研究与实现(1)[88250原创]

<!-- @page { size: 8.5in 11in; margin: 0.79in } P { margin-bottom: 0.08in } H2 { margin-bottom: 0.08in } H2.cjk { font-family: "AR...
阅读(18655) 评论(19)

Lucene入门与使用

本文主要面向具体使用,适用于已熟悉java编程的lucene初学者。1. Lucene的简介1.1 Lucene 历史      org.apache.lucene包是纯java语言的全文索引检索工具包。      Lucene的作者是资深的全文索引/检索专家,最开始发布在他本人的主页上,2001...
阅读(1910) 评论(0)

编写简单的中文分词程序

几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:地区    82重要    81新华社    80技术   ...
阅读(2293) 评论(0)

构建基于词典的Lucene分析器

Lucene 是Apache的一个基于Java的开放源代码的搜索软件包,也是目前最为流行的搜索软件包。但是对于绝大多数中文用户来说其提供的两个中文分析器 (ChineseAnalyzer和CJKAnalyzer)的能力又太弱了,因此我们有必要开发适合自己的中文分析器。这篇文章中给出了一个基于词典的...
阅读(2162) 评论(2)

基于机器学习的文本自动分类技术[4]

下面是本论文的组成。第二部分我们正式定义TC系统还有它的一些子情况,第三部分我们对TC系统做一个总览。第四部分我们描述基于ML的TC系统。从第五部分开始,我们通过文本索引讨论文本分类,例如,文本分类器的构建与实现。在第六部分,进行手动组织的训练集方法构建分类器。第七部分,讨论对分类结果的评估方法。...
阅读(1927) 评论(1)

基于机器学习的文本自动分类技术[3]

如今的TC系统应该是一个具有ML和IR功能的,如同从文本里返回信息/知识、文本挖掘[D¨orreetal 1999;Knight1999;Pazienza 1997]。在这里仍然有一些值得考虑的争论关于这两个学科的边界,术语学是一直都在发展之中的。我们可以尝试用“文本挖掘”去描述所有的这些任务,通...
阅读(2169) 评论(0)

基于机器学习的文本自动分类技术[2]

这个今天的翻译成果:1.介绍在最近10年里,对于文本信息的自动化管理任务(统称为信息取回——IR)在信息系统领域里是处于相当重要的地位的。而文本信息数字化带来的海量数据的同时,用户却需要对这些信息进行便捷地访问……文本分类——TC,就是在自然文本语言上贴上一些标签,以按预订的分类方式去分类这些文本...
阅读(2065) 评论(0)

基于机器学习的文本自动分类技术[1]

今天看了一些关于文本信息自动分类的文章,感触颇多。。。。找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Ital...
阅读(2771) 评论(1)
    公告
    个人资料
    等级:
    访问量: 602万+
    积分: 6万+
    排名: 43
    最新评论