结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究

最新推荐文章于 2023-06-02 12:41:43 发布

阳光总在风雨后1127

最新推荐文章于 2023-06-02 12:41:43 发布

阅读量910

点赞数

分类专栏：自动摘要

本文链接：https://blog.csdn.net/qq_32037669/article/details/82877555

版权

本文研究了结合Doc2Vec的句子向量训练与优化的K-means聚类方法在中文单文档自动摘要中的应用。通过Doc2Vec模型获取句子向量，然后基于密度最大和距离最远原则优化初始聚类中心，最后使用最大信息熵选择摘要句子，以提高摘要质量。

摘要由CSDN通过智能技术生成

图1 本文方法示意图

一．基于Doc2Vec 的句子向量训练

Doc2Vec 模型能很好地结合上下文语境, 挖掘语义、语法和传统统计语言模型不能提取的诸多其他特征。本文引入该方法, 用以生成句子的向量模型。

Doc2Vec 是 Mikolov 等[8]在 2014 年提出的一种较新颖的可将句子或段落直接转化为固定维度向量的文档分布式表达的方法。该方法利用无监督的训练方法获得任意长度的文本向量, 主要通过两种模型进行训练: DM(Distributed Memory Model)和 DBOW(Distributed Bag Of Words), 两种模型均以神经网络语言模型为基础, 去掉隐含层, 利用上下文和段落特征来预测某词语出现的概率分布。段落向量与词向量是其训练过程的副产物。

在 Doc2Vec 的两种模型中, DBOW与DM训练方法基本一致, 在仅给定段落向量的情况下预测段落中一组随机单词出现的概率。但是, 与DM不同的是,DBOW的输入层仅为一个段落向量, 而输出层为多个词向量的概率分布 , 且在训练过程中只需存储Softmax 参数, 相比DM模型还需要存储词向量来说,节省了存储空间。

二.基于密度最大距离最远原则优化初始聚类中心的K-means聚类

选出的初始聚类中心点应具有较高的密度, 即在一定的距离半径内, 应具有相对较多的邻居节点; 同时, 选出的初始聚类中心点间应具有相对较远的距离, 这样选出的初始聚类中心点能在有效代表类簇的同时, 也能保证类簇与类簇间的独立性。

1.相关概念

（1）期望密度： $E_{\alpha }=N/k \; \;\; \: \alpha =0.6\times E_{\alpha }$ ，其中N代表的是单篇文档中句子的总数，k是预先定义的聚类个数。

（2）密度半径：取句子向量空间中任意一个句子 $s_{i}$ ，以

最低0.47元/天解锁文章

阳光总在风雨后1127

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究

图1 本文方法示意图一．基于Doc2Vec 的句子向量训练 Doc2Vec 模型能很好地结合上下文语境, 挖掘语义、语法和传统统计语言模型不能提取的诸多其他特征。本文引入该方法, 用以生成句子的向量模型。 Doc2Ve...
复制链接

扫一扫

专栏目录