对文本分类词库的考虑

最新推荐文章于 2019-03-08 11:12:21 发布

dsniff

最新推荐文章于 2019-03-08 11:12:21 发布

阅读量3.4k

点赞数

分类专栏：数据挖掘/搜索引擎文章标签：搜索引擎搜狗文档数据结构联想算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dsniff/article/details/1627370

版权

老板喊看看能不能做个分类词库的东西，以后我们分类、聚类就根据这个库来做了。所谓分类词库，我是这样理解的：每个类别都有N个词，当需聚类文本分词之后，统计其词的分部情况，看看词落在哪个类比较多，从而组成特征向量用于聚类。

查了些资料，发现他的思路已经被N多人做过，而且过程比较复杂：对文本分词、去停用词、特征选择、生成向量空间、聚类算法……总而言之，是采用词做为最小的义原，这样做的弊端是步骤太多，如何有效的特征提取呢？最经典的莫过于TF/IDF模型针，求IDF需要（或近似的）出现的总词频。组成向量空间时需要语义相互独立，否则准确率又会下降，又需要使用知网等语义词典来做。最后才是对向量的相似度计算。这种方法在建模过程中做了大量的工作，最后的聚类倒是很简单的弄完了。问题的关键也是建模，如果建模过程中出现了偏差，结果就会差距很大，即使中间加入反馈环节，

电子科大有个家伙使用短句来聚类的，提出后缀树模型。开始还以为他就用后缀树形成文档的树形结构，从而聚/分类等。就想着为嘛不用图呢？今天仔细看了下，果然是用了“文档索引图”。具体细节还要再看。最近再看数据结构，知道了STL是基于RB-Tree的，不错不错。可惜我现在只对二叉树了解点，有没有好用的多叉树可以存放文档的句子之类的呢？这几天要好好查查！

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对文本分类词库的考虑

老板喊看看能不能做个分类词库的东西，以后我们分类、聚类就根据这个库来做了。所谓分类词库，我是这样理解的：每个类别都有N个词，当需聚类文本分词之后，统计其词的分部情况，看看词落在哪个类比较多，从而组成特征向量用于聚类。查了些资料，发现他的思路已经被N多人做过，而且过程比较复杂：对文本分词、去停用词、特征选择、生成向量空间、聚类算法……总而言之，是采用词做为最小的义原，这样做的弊端是步骤太多，如何
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。