语义驱动的多模态关键短语抽取技术-CSDN博客

本文链接：https://blog.csdn.net/rensihui/article/details/123175248

短语抽取专利汇总

利用语义特征的科技创新领域中文关键短语抽取方法及系统【词性标注 + rake + 向量相似度】

摘要：本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。
本发明通过挖掘中文科技创新文档语料特征，构建出中文停用词及停用模式库，实现对无效信息的高性能过滤；
此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析，从而选用更加适合领域认知的算法模型，并利用多种统计规则进行过滤以提升短语抽取性能；
进一步利用文档的结构特点，对文档的主题语义进行向量空间嵌入表示，并综合利用所抽取短语与文档主题的语义相似度，和短语语义重要程度进行计算与排名，完成对关键短语的进一步筛选。
该方法可支撑多种下游任务和应用，包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。

 1.一种利用语义特征的科技创新领域中文关键短语抽取方法，其特征在于，步骤如下：/n
 S1、获取科技创新领域的多种中文文档，并转换为统一中文编码格式，形成科技创新领域文档库；/n
 S2、对科技创新领域文档库中的文档进行分句、分词和词性标注后，利用符合科技创新领域中文文档特征的中文停用词及停用模式库进行候选短语的抽取，
     并针对每个抽取出的候选短语，利用Rake算法计算候选短语的关键程度；
     再对抽取得到的候选短语列表，通过基于科技创新文档统计分析得到的关键短语过滤规则，对候选短语进行过滤筛选，得到初步筛选后的关键短语列表；/n
 S3、利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码，得到向量化编码文档；
     然后针对每一篇科技创新文档，将对应的所述关键短语列表进行向量化编码，然后计算文档与关键短语列表之间的语义相似度，
     所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度；
     再基于所述语义相似度，利用图网络构建候选短语之间的语义相似度网络，并利用语义网络重要度计算算法得到候选短语的语义重要度，
     用于表示候选短语在文档中的重要程度；最后，对所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合，
     得到候选短语的综合得分，并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。/n

利用语义特征的科技创新领域中文关键短语抽取方法及系统审中-实审
浙江大学杭州量知数据科技有限公司(2021-08-06)

一种主题短语抽取方法【切词/链接/名词短语 + 中心词 + 主题模型】

摘要：本发明涉及一种主题短语抽取方法，包括：
文档预处理；求文档‑主题集、全文词汇链集及名词短语集；求中心词集；求候选主题短语集；求主题短语集。
本发明提供的主题短语抽取方法，通过LDA模型与词汇链相结合来进行主题短语抽取，可以利用语料库之外的具有较完备语义信息的知识库WordNet，
通过语义相关度计算和强链规则筛选可以得到强词汇链，从而在很大程度上减少主题词二义性问题；
同时，利用中心词提取方法和N‑P规则合并、去重等步骤完成主题短语的提取，借助具有更丰富语义信息的主题短语来表达主题，从而解决了主题词粒度过小、辨识度低等问题，
且能够保证主题抽取的准确率和召回率，减少了主题漂移现象，可以很好地满足实际应用的需要。

 1.一种主题短语抽取方法，其特征在于，包括以下步骤：
 步骤1)文档预处理；
 步骤2)求文档‑主题集、全文词汇链集及名词短语集；
 步骤3)求中心词集；
 步骤4)求候选主题短语集；
 步骤5)求主题短语集。

一种主题短语抽取方法审中-实审
北京信息科技大学(2018-11-30)

一种技能短语抽取方法【规则 + 删除/分词】

摘要：本发明涉及计算机自然语言处理中短语抽取技术领域，具体的讲是一种技能短语抽取方法，
首先获取文本内容，对获取的文本进行预处理，即删除文本主题前方带有的数字或者特殊索引符号，然后利用分隔符将文本分割成句子片段，之后构造抽取规则，
运行抽取规则抽取技能短语片段，再对抽取的片段进行清洗，删除词语序列中的修饰词等没有实际意义的词语，然后进行分词处理，
最后针对分词后的词语序列进行短语构建，形成技能短语。
本发明可以应用在非结构化数据中，例如企业招聘等领域，在实施中不需要构建训练集和分类器，降低了数据预备与算法训练成本，能够自动确定技能短语的长度，
避免主观性，避免了统计法中阈值选择的难题。

 1.一种技能短语抽取方法，其特征在于：包括如下步骤：/n
 S1预处理文本；/n
 S2抽取技能短语片段；/n
 S3清洗包含技能短语的结构；/n
 S4构建技能短语；/n
 S5生成技能短语。/n

[一种技能短语抽取方法审中-实审](一种技能短语抽取方法审中-实审)
上海硕恩网络科技股份有限公司(2020-12-04)

一种关键短语抽取方法和装置【词对的共现信息】

摘要：本发明提供了一种关键短语抽取方法和装置，涉及文本处理技术领域。
本发明提供的关键短语抽取方法和装置，在确定关键短语的时候，能够确定词对的共现信息并根据词对的共现信息，确定文本的关键短语。
共现信息能够体现组成词对的各个分词之间的关系，对应短语多为固定搭配以及专有名词的特点，
以共现信息作为确定关键短语的依据，能够提高关键短语抽取的准确率，提高了关键短语抽取的精度。

一种关键短语抽取方法，其特征在于，所述方法包括：
对文本进行预处理，得到多个分词；
将所述多个分词中每两个相邻的分词组合，得到多个词对；
通过预设的成词搭配特征表，确定所述多个词对中每个词对的共现信息；
根据所述每个词对的共现信息，确定所述文本的关键短语。

一种关键短语抽取方法和装置有权
北京奇艺世纪科技有限公司( 2018-01-12)

文本短语抽取方法、装置、计算机设备及存储介质审中-实审【基于词法的名词抽取 + 向量相似度权重】

摘要：本申请实施例属于人工智能领域，涉及一种文本短语抽取方法，
包括获取待处理文本和预设语言模型，输入所述待处理文本至所述预设语言模型中，计算得到长文本特征；
获取预设词法工具，根据所述预设词法工具对所述待处理文本进行名词抽取，得到候选短语，
对所述候选短语进行特征编码，得到所述候选短语对应的候选向量；
计算所述候选向量和所述长文本特征的相似度，选取所述相似度最大的候选向量对应的候选短语，作为所述待处理文本的目标抽取文本。
本申请还提供一种文本短语抽取装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，
目标抽取文本可存储于区块链中。本申请实现了对文本短语的高效抽取。

文本短语抽取方法、装置、计算机设备及存储介质
中国平安人寿保险股份有限公司(2021-07-26)

一种语义短语抽取方法及相关装置【向量聚类 + 正则 + 名词性短语】

摘要：本申请实施例公开了一种语义短语抽取方法，包括：对输入文本信息进行分词和去除无含义词处理，得到待处理文本信息，输入文本信息为用于训练的信息；
将所述待处理文本信息进行转换得到文本向量矩阵；
基于激活函数，根据所述文本向量矩阵计算文本向量；
对所述文本向量进行聚类得到第一正则表达式；
根据所述第一正则表达式对目标文本信息进行抽取，得到第一目标语义短语，所述第一目标语义短语包括名词实体和动词加名词实体的短语。

一种从文档集中抽取热词短语的方法和装置【词典切词 + 【细粒度词】基于熵的新词发现】

本发明公开了一种从文档集中抽取热词短语的方法和装置，其中分词单元对所述文档集中的每个分句进行分词；
判断单元为针对每个分句中所有K个以下连续词组成的短语，判断短语边界明显度和/或短语中各词之间关系的紧密程度，其中K是正整数，边界明显度指示短语与短语左右的词的搭配自由度；
热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果，从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
与现有技术相比，本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。

 一种从文档集中抽取热词短语的方法，包括：
 对所述文档集中的每个分句进行分词；
 针对每个分句中所有K个以下连续词组成的短语，判断短语边界明显度和/或短语中各词之间关系的紧密程度，其中K是正整数，边界明显度指示短语与短语左右的词的搭配自由度；
 基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果，从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出；
 其中，判断短语边界明显度包括：通过计算所述短语的左、右信息熵并与相应阈值比较，判断短语边界明显度；
 或通过获取在所述文档集中所述短语左、右侧出现的词的集合，计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差，
 并与相应阈值比较，判断短语边界明显度；
 其中，通过以下公式计算所述短语的左、右信息熵：
   所述短语的左信息熵的计算如下：
     或其中，w表示所述短语，ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词，N(w)表示短语w在所述文档集中出现的总次数，m>1，
     C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数，LCE(w)表示短语w的左信息熵；
   所述短语的右信息熵的计算如下：
     或其中，w表示所述短语，bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词，
     N(w)表示短语w在所述文档集中出现的总次数，n>1，C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数，RCE(w)表示短语w的右信息熵。

一种从文档集中抽取热词短语的方法和装置有权
清华大学(2014-06-13)

文本处理方法、装置、设备及存储介质【seq2seq生成式】

摘要：本申请实施例涉及人工智能领域，公开一种文本处理方法包括：
通过训练后的文本处理模型对目标文本进行编码处理，得到目标文本的表示向量；
通过第一堆叠关系网络对目标文本的表示向量进行关键短语抽取处理，得到目标文本对应的第一关键短语的表示向量，以及通过第一堆叠关系网络对目标文本的表示向量进行关键短语生成处理，得到目标文本对应的第二关键短语的表示向量；
对目标文本对应的第一关键短语的表示向量进行解码处理，得到目标文本对应的第一关键短语，并对目标文本对应的第二关键短语的表示向量进行解码处理，得到目标文本对应的第二关键短语；
生成目标文本对应的关键短语集合，可提高根据文本预测关键短语的预测精度。

 1.一种文本处理方法，其特征在于，包括：/n
 通过训练后的文本处理模型对目标文本进行编码处理，得到所述目标文本的表示向量；/n
 通过第一堆叠关系网络对所述目标文本的表示向量进行关键短语抽取处理，得到所述目标文本对应的第一关键短语的表示向量，
     以及通过所述第一堆叠关系网络对所述目标文本的表示向量进行关键短语生成处理，得到所述目标文本对应的第二关键短语的表示向量，
     其中，所述第一堆叠关系网络为所述训练后的文本处理模型中的网络，所述目标文本对应的第一关键短语为存在于所述目标文本中的关键短语，
     所述目标文本对应的第二关键短语为不存在于所述目标文本中的关键短语；/n
 对所述目标文本对应的第一关键短语的表示向量进行解码处理，得到所述目标文本对应的第一关键短语，并对所述目标文本对应的第二关键短语的表示向量进行解码处理，
     得到所述目标文本对应的第二关键短语；/n
 生成所述目标文本对应的关键短语集合，所述关键短语集合包括所述目标文本对应的第一关键短语和所述目标文本对应的第二关键短语。/n

文本处理方法、装置、设备及存储介质有权
腾讯科技(深圳)有限公司(2021-05-18)

基于主题模型的领域标签获取方法【词典切词 + LDA】

摘要：本发明提供一种基于主题模型的领域标签获取方法，在海量学术数据的基础上，
分析学术数据固有的特点，引入学术词频特征构建FLDA主题模型，利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。
其次，引入领域体系，将主题模型的抽取结果与体系标签进行向量表征，经过位置加权后使用相似度进行体系映射，最终获得学者的领域标签。
实验表明，FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比，最终获取的标签词效果更好，准确率更高，
说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

基于主题模型的领域标签获取方法
北京信息科技大学(2019-12-06)

基于中文短语串的细粒度主题信息抽取方法无权-驳回【多种方式候选集 + 正则/词频 + 种子词拓展】

摘要：本发明提出了一种基于中文短语串的细粒度主题信息抽取方法，首先对输入的原始文本集进行预处理，主要分为中文分词、停用词处理和词性标注。
在进行预处理的同时，进行扩展词汇输入，从而提高中文分词的准确度。
预处理阶段完成后，得到处理后的结构化文本集合。
然后进行基于词性的正则表达式匹配，得到一个初步的短语筛选结果。然后统计每个词语的串频信息，选取种子词，对短语进行扩展，最终得到短语抽取结果。
通过实验证明，该文本抽取方法能够有效且精炼地抽取文本短语，具有一定的可靠性和应用性。

(a)对原始文本进行常规的文本分析的预处理步骤，包括中文分词、停用词处理和词性标注；
(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理，从而得到结构化的文本集合；
(c)利用步骤(a),(b)中得到的结构化文本集合，进行基于词性长度的正则表达式匹配，以7个词语作为短语长度的上限；
(d)利用步骤(c)过滤得到的短语抽取的中间结果，进行词语串频信息统计，包括前缀短语串频集合和后缀短语串频集合的信息统计；
(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析；
(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。

基于中文短语串的细粒度主题信息抽取方法无权-驳回
华南理工大学( 2016-09-28)

一种基于最大凝聚系数和边界熵的未登录词识别方法【基于熵的新词发现】

摘要：本发明提供了一种基于最大凝聚系数和边界熵的未登录词识别方法，其特征在于：
包括以下步骤：预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加；
本发明中实验表明，本发明中所提出的算法准确率为66.67％相比于汪龙庆等在计算机应用与软件期刊中所发表的论文：
基于未登录词识别的微博评价短语抽取方法中所提出的算法准确率为60.05％有较大程度的提高，提升了6.62个百分点，
并且分别在未登录词识别的精确率、召回率和F1值也有所改善，推测结果提高的原因是左右邻接边界熵这两个参数对未登录词识别都有影响，
但汪龙庆等的论文中中将左右邻接边界熵最小值设为一个参数，只是取其中最小值为影响未登录词识别算法的因素。

预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加；/n
参数计算包括以下步骤：/n
    S1、计算语料库中的WB2、WB3的词频tfi2和tfi3；/n
    S2、使用公式计算语料库中的WB2、WB3的凝聚系数和/n
    S3、使用公式计算语料库中的WB2、WB3的左邻接边界熵和/n
    S4、使用公式计算语料库中的WB2、WB3的右邻接边界熵和/n
    S5、对每一条文本都循环进行步骤2-1到2-4的unigram计算并在unigram词计算的基础上计算bigram的四个参数并保存。/n

一种基于最大凝聚系数和边界熵的未登录词识别方法审中-实审
东北大学(2021-01-08)

专利中技术短语的自动抽取方法【短语抽取+实体识别工具】

摘要：本发明公开了一种专利中技术短语的自动抽取方法，包括：
根据专利数据库，获得各领域专利文本以及类别信息；
利用诸多既有的短语抽取、实体识别工具，构建专利中的候选技术短语的集合；
根据技术短语的语义、统计特点，设计相应的评价指标来量化候选短语是技术短语的可能性；
根据专利的多层级结构特点，设计了一种多层的抽取模型来抽取技术短语；
最后在每个层级上筛选的到技术短语，合并得到专利的技术短语集合，即此专利的技术画像。

 1.一种专利中技术短语的自动抽取方法，其特征在于，包括：/n
 通过专利数据库，获得各个领域内的专利文本信息，以及专利之上的技术类别描述信息；/n
 对于每一份专利，按照专利文本的结构将专利文本信息分为N个层级，使用无监督方法对每一层级进行候选技术短语的抽取，并利用每一层级的候选技术短语各自构建短语图结构；/n
 逐层级的为候选技术短语进行评分，再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系，迭代计算每个候选技术短语的最终分值，
     按照最终分值的大小筛选出技术短语，其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算，第一层级则结合技术类别描述信息进行候选技术短语的评分计算；/n
 综合所有层级选出的技术短语，并进行去重合并，得到一份专利中技术短语。/n

专利中技术短语的自动抽取方法审中-实审
中国科学技术大学(2020-12-01)

一种文本处理方法及装置【词级别中转英 + 英文关键短语抽取】

摘要：本申请涉及文本处理技术领域，尤其涉及一种文本处理方法及装置。
本申请通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，
进而将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。
与现有技术中只基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，
进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

 1.一种文本处理方法，其特征在于，所述文本处理方法包括：/n
 将获取到的中文文本进行分词处理，得到多个中文词语；/n
 在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列；/n
 根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本；/n
 从所述英文文本中抽取出多个英文关键短语；/n
 根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。/n

一种文本处理方法及装置审中-实审
北京嘀嘀无限科技发展有限公司( 2020-10-30)
查找出与每个中文词语分别对应的英文字母序列；/n
根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本；/n
从所述英文文本中抽取出多个英文关键短语；/n
根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。/n

 - [一种文本处理方法及装置 审中-实审](http://www2.soopat.com/Patent/201910269029)
 - 北京嘀嘀无限科技发展有限公司( 2020-10-30)

希望对你有所帮助

短语抽取专利汇总

短语抽取专利汇总

利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】

一种主题短语抽取方法 【切词/链接/名词短语 + 中心词 + 主题模型】

一种技能短语抽取方法 【 规则 + 删除/分词 】

一种关键短语抽取方法和装置 【词对的共现信息】

文本短语抽取方法、装置、计算机设备及存储介质 审中-实审 【基于词法的名词抽取 + 向量相似度权重】

一种语义短语抽取方法及相关装置【向量聚类 + 正则 + 名词性短语】

一种从文档集中抽取热词短语的方法和装置 【词典切词 + 【细粒度词】基于熵的新词发现】

文本处理方法、装置、设备及存储介质 【seq2seq生成式】

基于主题模型的领域标签获取方法 【词典切词 + LDA】

基于中文短语串的细粒度主题信息抽取方法 无权-驳回 【多种方式候选集 + 正则/词频 + 种子词拓展】

一种基于最大凝聚系数和边界熵的未登录词识别方法 【 基于熵的新词发现 】

专利中技术短语的自动抽取方法 【 短语抽取+实体识别工具 】

一种文本处理方法及装置 【 词级别中转英 + 英文关键短语抽取】

利用语义特征的科技创新领域中文关键短语抽取方法及系统【词性标注 + rake + 向量相似度】

一种主题短语抽取方法【切词/链接/名词短语 + 中心词 + 主题模型】

一种技能短语抽取方法【规则 + 删除/分词】

一种关键短语抽取方法和装置【词对的共现信息】

文本短语抽取方法、装置、计算机设备及存储介质审中-实审【基于词法的名词抽取 + 向量相似度权重】

一种从文档集中抽取热词短语的方法和装置【词典切词 + 【细粒度词】基于熵的新词发现】

文本处理方法、装置、设备及存储介质【seq2seq生成式】

基于主题模型的领域标签获取方法【词典切词 + LDA】

基于中文短语串的细粒度主题信息抽取方法无权-驳回【多种方式候选集 + 正则/词频 + 种子词拓展】

一种基于最大凝聚系数和边界熵的未登录词识别方法【基于熵的新词发现】

专利中技术短语的自动抽取方法【短语抽取+实体识别工具】

一种文本处理方法及装置【词级别中转英 + 英文关键短语抽取】