朴素贝叶斯中文文本分类器的研究与实现(2)[88250、zy、Sindy原创]

转载请保留作者信息:作者:88250Blog:http:/blog.csdn.net/DL88250MSN & E-mail & QQ:DL88250@gmail.com作者:zyBlog:http:/blog.csdn.net/zyofprogrammer作者:SindyE-Mail:sindybanana@gmail.com续上篇上次说到了效率的问题,现...
阅读(26023) 评论(18)

朴素贝叶斯中文文本分类器的研究与实现(1)[88250原创]

<!-- @page { size: 8.5in 11in; margin: 0.79in } P { margin-bottom: 0.08in } H2 { margin-bottom: 0.08in } H2.cjk { font-family: "AR PL ShanHeiSun Uni" } H3 { margin-bottom: ...
阅读(18440) 评论(19)

Lucene入门与使用

本文主要面向具体使用,适用于已熟悉java编程的lucene初学者。1. Lucene的简介1.1 Lucene 历史      org.apache.lucene包是纯java语言的全文索引检索工具包。      Lucene的作者是资深的全文索引/检索专家,最开始发布在他本人的主页上,2001年10月贡献给APACHE,成为APACHE基金jakarta的一个子项目。      目前,...
阅读(1866) 评论(0)

编写简单的中文分词程序

几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:地区    82重要    81新华社    80技术    80会议    80自己    79干部    78职工    78群众    77没有...
阅读(2241) 评论(0)

构建基于词典的Lucene分析器

Lucene 是Apache的一个基于Java的开放源代码的搜索软件包,也是目前最为流行的搜索软件包。但是对于绝大多数中文用户来说其提供的两个中文分析器 (ChineseAnalyzer和CJKAnalyzer)的能力又太弱了,因此我们有必要开发适合自己的中文分析器。这篇文章中给出了一个基于词典的 简单的实现。实现这个中文分析器的过程就像是一场精彩的赛事。好了,让我们马上开始。冗长的代...
阅读(2109) 评论(2)

基于机器学习的文本自动分类技术[4]

下面是本论文的组成。第二部分我们正式定义TC系统还有它的一些子情况,第三部分我们对TC系统做一个总览。第四部分我们描述基于ML的TC系统。从第五部分开始,我们通过文本索引讨论文本分类,例如,文本分类器的构建与实现。在第六部分,进行手动组织的训练集方法构建分类器。第七部分,讨论对分类结果的评估方法。在最后的第八部分里,我们将讨论后续对TC系统的学习。 2.文本分类2.1 文本分类的定义...
阅读(1879) 评论(1)

基于机器学习的文本自动分类技术[3]

如今的TC系统应该是一个具有ML和IR功能的,如同从文本里返回信息/知识、文本挖掘[D¨orreetal 1999;Knight1999;Pazienza 1997]。在这里仍然有一些值得考虑的争论关于这两个学科的边界,术语学是一直都在发展之中的。我们可以尝试用“文本挖掘”去描述所有的这些任务,通过分析大量的文本和探测用法模式,尝试取出可能有用的(可能有是仅仅是正确的)信息。根据这个观点,TC系统...
阅读(2105) 评论(0)

基于机器学习的文本自动分类技术[2]

这个今天的翻译成果:1.介绍在最近10年里,对于文本信息的自动化管理任务(统称为信息取回——IR)在信息系统领域里是处于相当重要的地位的。而文本信息数字化带来的海量数据的同时,用户却需要对这些信息进行便捷地访问……文本分类——TC,就是在自然文本语言上贴上一些标签,以按预订的分类方式去分类这些文本。TC有一个很长的历史,可以追溯到上世纪60年代,但是直到90年代的时候才成为了信息系统学科的...
阅读(1998) 评论(0)

基于机器学习的文本自动分类技术[1]

今天看了一些关于文本信息自动分类的文章,感触颇多。。。。找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Italy。在学习的同时,做了一下翻译工作:-),以便和我一样对这个感兴趣的人一起学习,研究。。。。翻...
阅读(2657) 评论(1)
    个人资料
    • 访问:5803598次
    • 积分:62161
    • 等级:
    • 排名:第39名
    • 原创:1236篇
    • 转载:326篇
    • 译文:42篇
    • 评论:2892条
    公告
    • * GitHub 上 Star 数最多的 Java 博客 Solo
    • * Golang 黑科技之在线 IDE Wide
    • * 黑客与画家的社区 Sym

    欢迎加入开源技术 Q 群:13139268,让学习和分享成为一种习惯!
    文章分类
    最新评论