1.一种文档主题词自动提取方法,其特征在于,包括以下步骤:
S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;
S2.利用词汇之间的关联关系衡量文本主题词关联度;
S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;
S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分;
S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;
S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;
S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;
S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;
S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;
S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词。
2.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述的S2包括以下步骤;
S21.计算文档中每一个词的相对共现度C:
其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;
S22.用互信息进行衡量词与词之间的相似性PMI:
其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;
S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:
S(x,y)=αC(x,y)+βPMI(x,y) (4)
其中,α和β是人为设定的参数,两者之和为1。
3.根据权利要求2所述的文档主题词自动提取方法,其特征在于,所述的S4包括以下步骤:
S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系,首先根据预知的k,提取复杂网络中度数大于k-1的节点,k为先验系数;
S412.寻找度数最大值为g-1的节点集合:从该集合中随机一个节点出发,找到包含该节点大小为g-1的派系后,g为当前网络中度的最大值,删除该节点以及其连接的边,再另选一个节点直至集合中没有节点为止;
S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行,当g=k时,停止寻找;
S421.根据上述的方法找到了满足度数要求的大小不同的派系之后,引用词间关联性;接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v;结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V*;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于关联性变异系数的带权派系,否则,则忽略该k派系;
S422.采用变异系数来衡量词语之间的关联度的稳定性,其公式为:
其中,σ表示该派系中权重的标准差,μ表示该派系中权重的平均值;
S423.在求出每一个派系的变异系数后,借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V*,其公式为:
其中,c为派系集合,u和v表示派系,k表示集合中派系的个数;
如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于变异系数的带权派系,否则,则忽略该k派系。
4.根据权利要求1所述的文档主题词自动提取方法,其特征在于,还包括
S9.根据对主题词与连接词进行分析,获取主题词和连接词中关键句子的位置,提取相关句子生成文本摘要。
5.根据权利要求4所述的文档主题词自动提取方法,其特征在于,所述的步骤S9步骤中提取相关句子后借助开源摘要自动生成算法生成文本摘要。
6.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述S8的连接权重为主题簇内一词语与其他词语关联度之和。
7.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述的滑动窗口大小为4个词汇。