- 博客(5)
- 收藏
- 关注
原创 LibSVM最优参数选择--grid.py使用
准备材料: LIbSVM,我使用的版本是libsvm-2.9,存放路径D:\java-study\NLPLibSVM\NLPLibSVM\libsvm-2.9 gnuplot,下载后无需安装,路径是D:\java-study\NLPLibSVM\NLPLibSVM\libsvm-2.9\gnuplot
2014-05-13 09:24:38 1480
转载 文本特征选择的关键算法总结
一、特征词选择与特征词权重关系 开始学文本分类的时候经常要搞晕特征词选择和特征词权重 这两个东西,因为两者都要进行量化,很容易认为特征词选择就是计算权重,因此我认为有必要先搞清楚这两个概念。两者的区别 :特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。特征词的选择算法 有:文本特征选择的算法有基
2013-05-07 14:12:44 1388
原创 java读取文本输出汉字乱码解决方案
try{String encoding = "GBK";String txtFilePath = "D://program files/11.txt";String tmpLineVal;InputStreamReader read = new InputStreamReader(new FileInputStream(txtFilePath), encoding);Buffe
2013-04-25 17:15:50 1347
转载 ANSI、UNICODE、UTF-8、GB2312、GBK、DBCS、UCS的区别和由来。
科普一下,自己也学习一下~~~~~ 一直对字符的各种编码方式懵懵懂懂,什么ANSI、UNICODE、UTF-8、GB2312、GBK、DBCS、UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go! 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个
2013-04-24 16:52:51 434
转载 基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地
2013-04-23 09:34:11 591
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人