forever1220-CSDN博客

原创 trie tree 字典树

摘自：http://blog.sina.com.cn/s/blog_4d3a41f40100f4z7.html今天AC了两题trie tree的题目,感觉trie的性质真的是相当的好，而且实现比较简单。它使在字符串集合中查找某个字符串的操作的复杂度降到最大只需O(n),其中n为字符串的长度。trie是典型的将时间置换为空间的算法，好在ACM中一般对空间的要求很宽松。 tri...

2014-09-25 11:22:37 176

原创从原始文档到KNN分类算法实现

摘自：http://www.cnblogs.com/zhangchaoyang/articles/2162393.html

2014-09-10 11:40:44 205

原创中文分词与停用词的作用

摘自：http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html首先什么是中文分词stop word？英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是...

2014-09-09 20:34:51 648

原创 CSV转换成excel格式[转换]

From:http://blog.163.com/mike_homis/blog/static/201049482011717105015210/步骤：1.打开Excel程序，并新建一空白文档。2.单击“数据”，获取外部数据中的“自文本”。找到并选中csv文件“源文件.csv”，单击“导入”。CSV转换成EXCEL格式 3.弹出的窗口如下图所示：CSV转换成EXCEL格...

2014-08-06 09:28:16 2081 1

原创 TF-IDF（转）输出到文本

import java.io.*;import java.util.*;import org.wltea.analyzer.lucene.IKAnalyzer;public class ReadFiles { /** * @param args */ private static ArrayList FileList = ...

2014-08-02 22:04:45 536

原创 TF-IDF（转）

From：http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.htmlTF-IDF前言前段时间，又具体看了自己以前整理的TF-IDF，这里把它发布在博客上，知识就是需要不断的重复的，否则就感觉生疏了。TF-IDF理解TF-IDF（term frequency–inverse document fr...

2014-08-02 16:31:42 162

原创 java.lang.OutOfMemoryError: Java heap space解决方法(转)

From:http://www.cnblogs.com/linjiqin/archive/2011/04/27/2030115.html引起java.lang.OutOfMemoryError: Java heap space异常，可能是由JAVA的堆栈设置太小的原因根据网上的答案大致有以下两种解决方法：1、在D:/apache-tomcat-6.0.18/bin/cata...

2014-08-02 09:24:50 202

分词去停用词词频统计

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileReader;import java.io...

2014-07-30 21:35:44 1046

原创特征提取计算——TF-IDF

From:http://blog.csdn.net/panguoyuan/article/details/29569385

2014-07-30 19:12:00 304

原创文本分类步骤

From:http://palydawn.blog.163.com/blog/static/18296905620124171155256/Keywords: 文本分类分词停用词文本特征特征向量布隆过滤器 ICTCLAS1. 序言最近一直在做文本分类的实验，查阅了很多文章和资料后，大概清楚了文本分类的整体流程。根据查阅到的资料，编写了一个简单的文本分类程...

2014-07-30 08:51:42 1434 1

原创文本分类的数据预处理[转]

From:http://blog.csdn.net/luowen3405/article/details/6305651在进行文本分类时，毫无疑问会涉及到对文本数据进行预处理，包括文档切分、文本分词、去停用词（包括标点、数字、单字和其它一些无意义的词）、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍，具体的实现还有待慢慢的研究。1. 文档切分文档切分...

2014-07-29 10:02:29 653

原创分词去停用词操作

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import j...

2014-07-28 21:27:17 1464

将多个txt合并为一个txt

import java.io.*;public class CombineTest { public static void main(String[] args){ FileInputStream fis = null; FileInputStream fs = null; int n=258; byte[] ...

2014-07-28 10:26:59 400

转载 Java词频统计算法（使用单词树）

许多英语培训机构（如新东方）都会出几本“高频词汇”的书，主要内容是统计近几年来各类外语考试中屡次出现的高频词汇，帮助考生减少需要背的生词的数量。但这些高频是如何被统计出来的呢？显然不会用手工去计算。假如我们已经将一篇文章存在一字符串(String)对象中，为了统计词汇出现频率，最简单直接的做法是另外建一个Map：key是单词，value是次数。将文章从头读到尾，读到一个单词就到Map里查一下

2014-07-09 22:05:40 750

转载文本分类的数据预处理相关知识介绍

在进行文本分类时，毫无疑问会涉及到对文本数据进行预处理，包括文档切分、文本分词、去停用词（包括标点、数字、单字和其它一些无意义的词）、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍，具体的实现还有待慢慢的研究。1. 文档切分文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如果

2014-07-09 22:03:08 2784 1

原创如何转换成weka可识别的ARFF格式

摘自：http://blog.csdn.net/chl033/article/details/4837232若采用的是英文文本语料库，利用WEKA将英文文本数据转换到ARFF格式中，需要用到以下两个工具：TextDirectoryToArff和TextDirectoryLoader。 TextDirectoryToArff是一个JAVA类（Class），它负责将一个目录文件中的文本数据...

2014-06-28 18:58:25 552

原创 [转] 有关weka数据格式

摘自：http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.htmlWeka简介（http://www.china-pub.com/computers/common/info.asp?id=29304） WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge An...

2014-06-28 11:35:24 373

原创 WEKA将英文文本数据集转换成ARFF格式

摘自：http://blog.163.com/jiayouweijiewj@126/blog/static/1712321772011113102710492/利用Weka转化英文文本数据需要用到两个工具：TextDirectoryToArff和TextDirectoryLoader。TextDirectoryToArff是一个JAVA类（Class），它负责将一个目录文件中的文本...

2014-06-22 22:09:10 373

原创 Libsvm使用心得

原文：http://freehello.blogspot.com/2009/04/libsvm.htmlLibsvm使用心得最近在做基于SVM的短信分类的项目，对libsvm的使用进行了小小研究，结合网上泛滥成灾的libsvm使用方法介绍，自己做一简短总结。libsvm是实现svm的便捷开源工具，应用广泛（除此之外还有lightsvm，没用过）由国立台湾大学Chih-Chung C...

2014-06-20 16:43:52 214

原创 MATLAB 安装使用libsvm详细步骤（附图）

查看：http://zjhello123.blog.163.com/blog/static/25495143201251792625811/

2014-06-20 16:42:52 979

原创 libSVM使用

摘自：http://blog.csdn.net/alextowarson/article/details/4757700Dr. Y.Bao推荐数据试验中最好用上SVM的分类方法，让我们在Weka中使用LibSVM，我在网上差了半天，看到许多相同的被转来转去的帖子都讲得人晕头转向，尤其是像我这种Java基础不牢固的人更是不知所以，弄了半天走了不少弯路，不过最后总算是让我把LibSVM集成进...

2014-06-20 10:50:58 158

原创 Windows7查看本机Java安装是否成功和路径的方法

摘自：http://jingyan.baidu.com/album/f71d603766f36a1ab641d1cd.html

2014-06-19 10:43:28 147

在WEKA的安装文件中有weka-3-5-6.exe和 weka-3-5-6jre.exe，这两个软件我们安装一个即可，它们的区别是weka-3-5-6.exe只安装WEKA，而weka- 3-5-6jre.exe是将WEKA和JRE一起安装，所以在安装之前我们应该首先检查一下我们的电脑中是否安装了JRE，如果本机中已经安装了 JRE，那么我们就选择weka-3-5-6.exe安装程序，如果没有安...

2014-06-18 11:22:14 904

原创 weka分类前数据格式如何处理

[size=medium]weka是一种机器学习算法的集合，它可以用于分类，预测等。由于weka支持的数据格式是arff或csv的格式，因此在进行weka实验的时候必须进行数据的预处理。一般，我们可以在EXCEL里面导入TXT，然后另存为.CSV格式的文件（这个格式WEKA也是可以识别的），然后打开WEKA，–》TOOL–》 arffviewer中打开刚才的.CSV文件，另存为.arff就OK了！...

2014-06-18 10:58:39 383

forever1220的专栏