结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究

本文研究了结合Doc2Vec的句子向量训练与优化的K-means聚类方法在中文单文档自动摘要中的应用。通过Doc2Vec模型获取句子向量,然后基于密度最大和距离最远原则优化初始聚类中心,最后使用最大信息熵选择摘要句子,以提高摘要质量。
摘要由CSDN通过智能技术生成

                                                                      图1 本文方法示意图

一.基于Doc2Vec 的句子向量训练 

      Doc2Vec 模型能很好地结合上下文语境, 挖掘语义、语法和传统统计语言模型不能提取的诸多其他特征。本文引入该方法, 用以生成句子的向量模型。

      Doc2Vec 是 Mikolov 等[8]在 2014 年提出的一种较新颖的可将句子或段落直接转化为固定维度向量的文档分布式表达的方法。该方法利用无监督的训练方法获得任意长度的文本向量, 主要通过两种模型进行训练: DM(Distributed Memory Model)和 DBOW(Distributed Bag Of Words), 两种模型均以神经网络语言模型为基础, 去掉隐含层, 利用上下文和段落特征来预测某词语出现的概率分布。段落向量与词向量是其训练过程的副产物。

       在 Doc2Vec 的两种模型中, DBOW与DM训练方法基本一致, 在仅给定段落向量的情况下预测段落中一组随机单词出现的概率。但是, 与DM不同的是,DBOW的输入层仅为一个段落向量, 而输出层为多个词向量的概率分布 , 且 在训练过程中只需存储Softmax 参数, 相比DM模型还需要存储词向量来说,节省了存储空间。

二.基于密度最大距离最远原则优化初始聚类中心的K-means聚类

       选出的初始聚类中心点应具有较高的密度, 即在一定的距离半径内, 应具有相对较多的邻居节点; 同时, 选出的初始聚类中心点间应具有相对较远的距离, 这样选出的初始聚类中心点能在有效代表类簇的同时, 也能保证类簇与类簇间的独立性。

1.相关概念

(1)期望密度:E_{\alpha }=N/k \; \;\; \: \alpha =0.6\times E_{\alpha },其中N代表的是单篇文档中句子的总数,k是预先定义的聚类个数。

(2)密度半径:取句子向量空间中任意一个句子s_{i},以

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值