自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 trie tree 字典树

摘自:http://blog.sina.com.cn/s/blog_4d3a41f40100f4z7.html今天AC了两题trie tree的题目,感觉trie的性质真的是相当的好,而且实现比较简单。它使在字符串集合中查找某个字符串的操作的复杂度降到最大只需O(n),其中n为字符串的长度。trie是典型的将时间置换为空间的算法,好在ACM中一般对空间的要求很宽松。 tri...

2014-09-25 11:22:37 110

原创 从原始文档到KNN分类算法实现

摘自:http://www.cnblogs.com/zhangchaoyang/articles/2162393.html

2014-09-10 11:40:44 143

原创 中文分词与停用词的作用

摘自:http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是...

2014-09-09 20:34:51 579

原创 CSV转换成excel格式[转换]

From:http://blog.163.com/mike_homis/blog/static/201049482011717105015210/步骤:1.打开Excel程序,并新建一空白文档。2.单击“数据”,获取外部数据中的“自文本”。找到并选中csv文件“源文件.csv”,单击“导入”。CSV转换成EXCEL格式 3.弹出的窗口如下图所示:CSV转换成EXCEL格...

2014-08-06 09:28:16 1901 1

原创 TF-IDF(转)输出到文本

import java.io.*;import java.util.*;import org.wltea.analyzer.lucene.IKAnalyzer;public class ReadFiles { /** * @param args */ private static ArrayList FileList = ...

2014-08-02 22:04:45 475

原创 TF-IDF(转)

From:http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.htmlTF-IDF前言前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。TF-IDF理解TF-IDF(term frequency–inverse document fr...

2014-08-02 16:31:42 97

原创 java.lang.OutOfMemoryError: Java heap space解决方法(转)

From:http://www.cnblogs.com/linjiqin/archive/2011/04/27/2030115.html引起java.lang.OutOfMemoryError: Java heap space异常,可能是由JAVA的堆栈设置太小的原因根据网上的答案大致有以下两种解决方法:1、在D:/apache-tomcat-6.0.18/bin/cata...

2014-08-02 09:24:50 140

分词去停用词词频统计

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileReader;import java.io...

2014-07-30 21:35:44 957

原创 特征提取计算——TF-IDF

From:http://blog.csdn.net/panguoyuan/article/details/29569385

2014-07-30 19:12:00 241

原创 文本分类步骤

From:http://palydawn.blog.163.com/blog/static/18296905620124171155256/Keywords: 文本分类 分词 停用词 文本特征 特征向量 布隆过滤器 ICTCLAS1. 序言 最近一直在做文本分类的实验,查阅了很多文章和资料后,大概清楚了文本分类的整体流程。根据查阅到的资料,编写了一个简单的文本分类程...

2014-07-30 08:51:42 1319 1

原创 文本分类的数据预处理[转]

From:http://blog.csdn.net/luowen3405/article/details/6305651在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。1. 文档切分文档切分...

2014-07-29 10:02:29 583

原创 分词去停用词操作

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import j...

2014-07-28 21:27:17 1385

将多个txt合并为一个txt

import java.io.*;public class CombineTest { public static void main(String[] args){ FileInputStream fis = null; FileInputStream fs = null; int n=258; byte[] ...

2014-07-28 10:26:59 308

转载 Java词频统计算法(使用单词树)

许多英语培训机构(如新东方)都会出几本“高频词汇”的书,主要内容是统计近几年来各类外语考试中屡次出现的高频词汇,帮助考生减少需要背的生词的数量。但这些高频是如何被统计出来的呢?显然不会用手工去计算。假如我们已经将一篇文章存在一字符串(String)对象中,为了统计词汇出现频率,最简单直接的做法是另外建一个Map:key是单词,value是 次数。将文章从头读到尾,读到一个单词就到Map里查一下

2014-07-09 22:05:40 703

转载 文本分类的数据预处理相关知识介绍

在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。1. 文档切分文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果

2014-07-09 22:03:08 2697 1

原创 如何转换成weka可识别的ARFF格式

摘自:http://blog.csdn.net/chl033/article/details/4837232若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。 TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据...

2014-06-28 18:58:25 476

原创 [转] 有关weka数据格式

摘自:http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.htmlWeka简介 (http://www.china-pub.com/computers/common/info.asp?id=29304) WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge An...

2014-06-28 11:35:24 296

原创 WEKA将英文文本数据集转换成ARFF格式

摘自:http://blog.163.com/jiayouweijiewj@126/blog/static/1712321772011113102710492/利用Weka转化英文文本数据需要用到两个工具:TextDirectoryToArff和TextDirectoryLoader。TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本...

2014-06-22 22:09:10 300

原创 Libsvm使用心得

原文:http://freehello.blogspot.com/2009/04/libsvm.htmlLibsvm使用心得最近在做基于SVM的短信分类的项目,对libsvm的使用进行了小小研究,结合网上泛滥成灾的libsvm使用方法介绍,自己做一简短总结。libsvm是实现svm的便捷开源工具,应用广泛(除此之外还有lightsvm,没用过)由国立台湾大学Chih-Chung C...

2014-06-20 16:43:52 165

原创 MATLAB 安装使用libsvm详细步骤(附图)

查看:http://zjhello123.blog.163.com/blog/static/25495143201251792625811/

2014-06-20 16:42:52 911

原创 libSVM使用

摘自:http://blog.csdn.net/alextowarson/article/details/4757700Dr. Y.Bao推荐数据试验中最好用上SVM的分类方法,让我们在Weka中使用LibSVM,我在网上差了半天,看到许多相同的被转来转去的帖子都讲得人晕 头转向,尤其是像我这种Java基础不牢固的人更是不知所以,弄了半天走了不少弯路,不过最后总算是让我把LibSVM集成进...

2014-06-20 10:50:58 99

原创 Windows7查看本机Java安装是否成功和路径的方法

摘自:http://jingyan.baidu.com/album/f71d603766f36a1ab641d1cd.html

2014-06-19 10:43:28 105

原创 weka的安装和配置

在WEKA的安装文件中有weka-3-5-6.exe和 weka-3-5-6jre.exe,这两个软件我们安装一个即可,它们的区别是weka-3-5-6.exe只安装WEKA,而weka- 3-5-6jre.exe是将WEKA和JRE一起安装,所以在安装之前我们应该首先检查一下我们的电脑中是否安装了JRE,如果本机中已经安装了 JRE,那么我们就选择weka-3-5-6.exe安装程序,如果没有安...

2014-06-18 11:22:14 763

原创 weka分类前数据格式如何处理

[size=medium]weka是一种机器学习算法的集合,它可以用于分类,预测等。由于weka支持的数据格式是arff或csv的格式,因此在进行weka实验的时候必须进行数据的预处理。一般,我们可以在EXCEL里面导入TXT,然后另存为.CSV格式的文件(这个格式WEKA也是可以识别的),然后打开WEKA,–》TOOL–》 arffviewer中打开刚才的.CSV文件,另存为.arff就OK了!...

2014-06-18 10:58:39 326

python-3.3.2.zip

python-3.3.2.zip,想要学的可以下载哦

2013-08-23

基于表情符号和情感词的情感分析模型

这篇论文介绍了表情符号对于情感分析的贡献

2013-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除