文本分类
文章平均质量分 77
scuxc
这个作者很懒,什么都没留下…
展开
-
文本分类
在无所事事快两周过后,终于开始做毕设了!首先要做的是文本的预处理:语料库我选的是复旦大学的那个,感觉用那个的比较多吧。。。预处理我参考的是http://www.cnblogs.com/zhangchaoyang/articles/2232205.html1、选择了文本数较多的8个类别,然后使用FindDupFile工具分别找到train和answer文件夹的重复文件,删除他们。原创 2014-03-03 21:04:59 · 739 阅读 · 1 评论 -
文本分类三
这次特征提取先用开方检验来做。然后进行分类,如果分类结果理想。。。然后再用其他的算法做一下。当然也就有时间再整理一下和继续深入学习一下。主要参考了http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.htmlhttp://www.cnblogs.com/finallyliuyu/archive/2010/09/26/1原创 2014-03-07 23:32:45 · 568 阅读 · 0 评论 -
文本分类二
上一篇中将语料进行了简单的整理。接下来就是:1、形成字典2、特征选择3、分类训练4、测试现在只做到了形成字典和特征选取。不过效果感觉不理想,选出来的特征有一些不好的项。下周有机会去问下老师~~下面是形成字典的代码:字典的结构是:map > myDic例子:中国0 5 1 23 2 34 5 9 7 2 9 68第一组是 0 5 其中 5 表示map的原创 2014-03-07 23:22:24 · 798 阅读 · 0 评论 -
文本分类四
下面是使用KNN算法来做的。数据均是由前面的程序生成的。做完这个之后,就是将每一步整合起来。然后再尽可能的优化,使得程序效率更好。然后可以尝试不同的特征选择算法和分类算法,当然最后要是能有自己的一些小小改进就好了。不过至少有了一个还可以的结果了。。。代码如下(这4篇的代码都很乱,以后慢慢整理~~):#include#include#include#include#inc原创 2014-03-09 23:45:29 · 576 阅读 · 0 评论 -
先验概率、后验概率与似然估计
比较有意思的文章http://hi.baidu.com/hi9394/blog/item/7e5132638102aa760c33faf2.html先验概率、后验概率与似然估计本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假转载 2014-04-05 16:20:42 · 495 阅读 · 0 评论