STC2聚类算法用于中文文本推荐

1、聚类算法内存不足的问题
1)STC2原作者code链接,https://github.com/jacoxu/STC2,加载预先计算好的每个sentence的word2vec特征向量,相比于github上其他版代码加载庞大的google.news.bin文件,节约了内存
2)CNN、聚类算法都较耗内存,所以采用分级聚类、融合的策略。将数据切分成若干份,用同一个STC-*网络训练,拥有相同聚类中心的sentences合并,再训练若干个STC-*网络
2、Embedding层的问题
1)keras中的embedding矩阵做为权重,对稀疏特征进行降维,得到稠密特征。这个embedding权重矩阵是学习到网络内部的。所以如果想在predict时候,正确的加载网络,应当在train 和predict时,预先加载相同的embedding矩阵。
2)当要想在train 和predict时,预先加载相同的embedding矩阵,并且要求这个矩阵尽量能够覆盖train和predict语料中的word,训练word2vec时的语料应尽可能的cover all possible word
3、二进制编码guide CNN 时,loss函数的设置,算法收敛问题
4、算法性能及无监督CNN聚类的思考
用一个不太好的AE、LSA等算法,guide CNN网络,得到的深层特征,为什么能达到提升聚类效果的目的?该论文借鉴了Encoding-Decoding的思想(How to do unsupervised Clustering with Keras),提取text的deep feature,达到性能提升。在中文文本上初步测试,达到67%的准确度。

参考文献:Xu J , Xu B , Wang P , et al. Self-Taught convolutional neural networks for short text clustering[J]. Neural Networks, 2017, 88:22-31.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值