weka的StringToWordVector类解析

最新推荐文章于 2022-02-25 18:19:43 发布

hj8380

最新推荐文章于 2022-02-25 18:19:43 发布

阅读量785

点赞数

文章标签： Go C C++ C# UP

weka的StringToWordVector类用于将文档内容转化为适合文本分类的vms模型。在转换过程中，它使用tokenizer进行分词并创建m_dictionary。非string属性值被映射为0-2，但SparseInstance会剔除非class属性值为0的元素，导致test1的label丢失。问题源于instance类设计时未充分考虑class属性。修复方案包括重写SparseInstance方法或修改instance类的赋值方法，但后者涉及较多改动。

摘要由CSDN通过智能技术生成

weka的StringToWordVector类可以将给定的文档格式的内容转换为vms模型的内容，而后者是文本分类必须的模块。按照weka要求，生成arff格式的文本：

@relation D__java_weka_data
@attribute text string
@attribute class {test1,test2,test3}
@data
'here we go go go go to do ',test1
'Mostly, I expect we are interested in indexing XPath queries',test1
'so what do you think you can do anything?',test2
'Sparse ARFF files are very similar to ARFF files',test3

按照StringToWordVector类的命令格式，设定opti

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hj8380

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
weka的StringToWordVector类解析

weka的StringToWordVector类可以将给定的文档格式的内容转换为vms模型的内容，而后者是文本分类必须的模块。按照weka要求，生成arff格式的文本： @relation D__java_weka_data@attribute text string@attribute class {test1,test2,test3}@data'here we...
复制链接

扫一扫