weka java tfidf_科学网-weka中使用TFIDF进行特征选择-李向东的博文

weixin_39922749

于 2021-02-13 19:53:23 发布

阅读量182

点赞数

文章标签： weka java tfidf

本文链接：https://blog.csdn.net/weixin_39922749/article/details/114153646

版权

我首先对训练集进行了中文分词处理，在不做特征选择的情况下，只进行向量化处理：

weka.filters.unsupervised.attribute.StringToWordVector in:9804

Number of instances: 9804

Number of attributes: 9302

产生的arff文件大约30M.

使用TFIDF进行特征选择，仍然使用这个训练集，代码很简单：

StringToWordVector filter = new StringToWordVector();

filter.setStemmer( new NullStemmer() );

filter.setInputFormat(dataRaw);

filter.setTFTransform(true);

filter.setIDFTransform(true);

filter.setMinTermFreq(5);

filter.setWordsToKeep(500);

结果：

weka.filters.unsupervised.attribute.StringToWordVector in:9804

Number of instances: 9804

Number of attributes: 3540

产生的arff文件大约41M. 这个arff文件可以用来训练NaiveBayes或SMO等分类模型。

但需注意，用某种训练好的分类模型进行分类时，被测对象应该使用相同的量化方法，否则双方属性不同，weka会出错，如“Src and Dest differ in # of attributes!!”。

转载本文请联系原作者获取授权，同时请注明本文来自李向东科学网博客。

分享到:

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39922749

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weka java tfidf_weka 文本分类（1）

weixin_34546240的博客

02-13

284

一、初始化设置1 jvm out of memory 解决方案：在weka SimpleCLI窗口依次输入java -Xmx 1024m2 修改配置文件，使其支持中文：配置文件是在Weka安装后的目录下，比如我的是在C:\Program Files\Weka-3-7\RunWeka.ini，打开这个文件，找到fileEncoding=Cp1252这一行，改成fileEncoding=utf-8即可...

Weka初体验——中文文本分类

热门推荐

lym199286的专栏

08-04

3万+

参与评论您还未登录，请先登录后发表或查看评论

TFIDF算法java实现

12-10

需要的就下吧，其实源代码和jar包之前都有提供，这次花费了点时间整理了下。

weka java tfidf,Weka 3.7中RandomForest的确切实现

weixin_30272849的博客

02-13

139

Having reviewed the original Breiman (2001) paper as well as some other board posts, I am slightly confused with the actual procedure used by WEKAs random forest implementation. None of the sources wa...

Weka学习 -- StringToWordVector 源码学习（1）

艾斯

07-22

6045

在文本分类和聚类种，都会对文本进行切词分词，然后转化为向量，最后求其TFIDF值，余弦相似性等。本文将介绍了WEKA源码中StringToWordVector中的源码知识，自己也可以基于这个类构建符合自己需求的StringToWordVector类。

weka_code_analysis--ID3.rar_Java编程_Java_

08-12

4. **Weka框架**：Weka是一个流行的开源机器学习库，可能文档会介绍如何在Weka中集成或使用ID3算法。 5. **代码示例**：可能包含完整的Java代码示例，展示如何从头开始构建一个ID3决策树。 6. **案例分析**：可能...

weka-src.jar.zip_algorithms_weka-src jar_weka-src.j_weka-src.jar

09-19

标题中的"weka-src.jar.zip"指的是Weka的源代码压缩包，而"algorithms"标签则暗示了其核心功能之一——丰富的分类算法实现。Weka源代码的可用性使得用户能够深入理解算法的内部工作原理，同时也为开发者提供了自定义...

weka-3-7-7.zip_clementine_weka-3-5-7_weka3.7.3_weka3.7外观_商业智能

09-22

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine ）的，基于JAVA环境下开源的机器学习（machine ...

KNN.rar_java k-nn_knn算法_weka k_weka knn

09-23

以下是一个简单的Java代码示例，展示了如何在Weka中使用KNN： ```java import weka.classifiers.lazy.IBk; import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; public class ...

weka-src.rar_ weka_Weka 聚类_java 数据挖掘_weka java_聚类 java

09-24

标题中的“weka-src.rar”指的是Weka的数据挖掘工具的源代码压缩包，而“weka_Weka 聚类_java 数据挖掘_weka java_聚类 java”这部分描述了该软件的主要功能，即Weka在Java环境下进行数据挖掘，特别是聚类分析。...

文本向量表示及TFIDF词汇权值

weixin_30682415的博客

05-14

564

文本相似计算是进行文本聚类的基础，和传统结构化数值数据的聚类方法类似，文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同，文本数据是一种半结构化数据，在进行文本挖掘之前必须要对文本数据源进行处理，如分词、向量化表示等，其目的就是使用量化的数值来表达这些半结构化的文本数据。使其...

Weka-filter类-选择样本[5]

红豆和绿豆的博客

03-17

1984

目前有3个方法可以研究下：RemovePercentage，RemoveRange，RemoveWithValues RemovePercentage：顾名思义，根据百分比选择样本 RemoveRange：根据序号选择样本 RemoveWithValues：根据某字段的设定值选择样本然后，为减少文章重复的内容，我们先看这几个方法的不同的

（6）文本挖掘（三）——文本特征TFIDF权重计算及文本向量空间VSM表示

好女绪的博客

03-28

1万+

建立文本数据数学描述的过程分为三个步骤：文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后，每一个文本的词条串被进一步转换为一个文本向量，向量的每一维对应一个词条，其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法，所以优化文本向量就是采用最为合适的计算方法来规范化文本向量，使其能更好

Weka使用笔记之一

刘瑞东的专栏

03-13

1897

前些日子基于weka初步做了一下文本分类，使用的是最频繁使用的矢量空间模型（Vector Space Model），即假设正负样本在特征空间的分布迥异，基于某种规则将它们转化为矢量，然后训练分类器来区分这些矢量，测试样本来时送进分类器进行分类就行。在我的实验里面，特征降维使用的是基于TFIDF的特征选择，分类器使用的是朴素贝叶斯（naïve bayes）分类器。前期预处理编码不一致：

特征选择方法之TF-IDF、DF

liu_zhlai的博客

12-08

1万+

TF_IDF, DF都是通过简单的统计来选择特征，因此把它们放在一块介绍 1、TF-IDF 单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在

用TFIDF给特征词赋权值

BlockheadLS的博客

11-24

4234

0 背景在上一篇的用CHI检验的文章中我们已经获得了特征词，这些特征词在某一篇文章中出现的频率是不一样的，也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度，就必须赋权重。在本篇文章中，我们使用的方法是TFIDF。 1 VSM向量空间模型哎？不是讲TFIDF吗，怎么会有VSM向量空间模型呢。是这样，在经过CH

Weka-3-5数据挖掘软件中文使用指南

在Weka-3-5的Explorer界面中，用户可以轻松地进行数据挖掘流程。Explorer分为多个标签页，包括预处理、分类、聚类、关联规则、属性选择和可视化等核心功能。 1. **预处理**：这一阶段用于清洗和转换原始数据，确保...