一个简单实用的文本分类步骤说明[firefly]

最新推荐文章于 2021-01-31 14:33:39 发布

HUGEHEADHUGE

最新推荐文章于 2021-01-31 14:33:39 发布

阅读量971

点赞数

分类专栏： textmining 文章标签：数据挖掘服务器算法网络

textmining 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

感觉上来说，这个是我见过的描述文本分类的最通俗易懂的说明。

文本分类具体方法：
＊选取２０K个文本，每个文本大于１０K。
＊用程序取出所有的词，列词表。进行一定的预处理，如去掉标点，（去掉停用词，这里需要停用词词表，简化同义词）。
*用程序生成文本向量arff文件。每一行是一个文本，包括：分类名、每一个单词出现的次数。这个文件估计有小１G。
*用weka打开。强烈建议用服务器。ｐｃ多半死机。
*最好先做spare，把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法，选取不同训练集，算吧。。。

http://www.tartarus.org/~martin/PorterStemmer/

一个去掉英语同词根的算法。在数据挖掘中有点用。

转自 http://www.zengz.com/?p=126

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一个简单实用的文本分类步骤说明[firefly]

感觉上来说，这个是我见过的描述文本分类的最通俗易懂的说明。文本分类具体方法：＊选取２０K个文本，每个文本大于１０K。＊用程序取出所有的词，列词表。进行一定的预处理，如去掉标点，（去掉停用词，这里需要停用词词表，简化同义词）。*用程序生成文本向量arff文件。每一行是一个文本，包括：分类名、每一个单词出现的次数。这个文件估计有小１G。*用weka打开。强烈建议用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。