STC2聚类算法用于中文文本推荐

最新推荐文章于 2024-01-18 02:04:23 发布

loveqiong2746

最新推荐文章于 2024-01-18 02:04:23 发布

阅读量543

点赞数

分类专栏：算法文章标签： STC2聚类

本文链接：https://blog.csdn.net/u011334375/article/details/88565184

版权

算法专栏收录该内容

26 篇文章 0 订阅

订阅专栏

1、聚类算法内存不足的问题
1）STC2原作者code链接，https://github.com/jacoxu/STC2，加载预先计算好的每个sentence的word2vec特征向量，相比于github上其他版代码加载庞大的google.news.bin文件,节约了内存
2）CNN、聚类算法都较耗内存，所以采用分级聚类、融合的策略。将数据切分成若干份，用同一个STC-*网络训练,拥有相同聚类中心的sentences合并，再训练若干个STC-*网络
2、Embedding层的问题
1）keras中的embedding矩阵做为权重，对稀疏特征进行降维，得到稠密特征。这个embedding权重矩阵是学习到网络内部的。所以如果想在predict时候，正确的加载网络，应当在train 和predict时，预先加载相同的embedding矩阵。
2）当要想在train 和predict时，预先加载相同的embedding矩阵，并且要求这个矩阵尽量能够覆盖train和predict语料中的word，训练word2vec时的语料应尽可能的cover all possible word
3、二进制编码guide CNN 时，loss函数的设置，算法收敛问题
4、算法性能及无监督CNN聚类的思考
用一个不太好的AE、LSA等算法，guide CNN网络，得到的深层特征，为什么能达到提升聚类效果的目的？该论文借鉴了Encoding-Decoding的思想（How to do unsupervised Clustering with Keras)，提取text的deep feature，达到性能提升。在中文文本上初步测试，达到67%的准确度。

参考文献：Xu J , Xu B , Wang P , et al. Self-Taught convolutional neural networks for short text clustering[J]. Neural Networks, 2017, 88:22-31.

loveqiong2746

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
STC2聚类算法用于中文文本推荐

斜体样式@TOC欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将...
复制链接

扫一扫