语义相似度的计算

语义相似度就是计算两个句子之间的相似度,可以将两个句子向量化之后,计算余弦距离。

# -*- coding: utf-8 -*-
"""
Created on Thu Feb 21 20:18:38 2019

@author: lcl
"""
from sklearn.feature_extraction.text import CountVectorizer
import math
import jieba
from setting import logger
#创建停用词list
def stop_word_list(path):
    stopwords = [line.strip() for line in open(path, 'r', encoding='utf-8').readlines()] 
    return stopwords
#预处理文本
def preprocess(text):
    if isinstance(text,str):
        text_with_spaces=""
        textcut = jieba.cut(text.strip()) 
        stopwords = stop_word_list("data/stop_words.txt")
        for word in textcut:
            if word not in stopwords:
                if word != '\t':
                    text_with_spaces += word + " "
    else:
        raise TypeError('text should be str')
    return text_with_spaces

def norm_vector_nonzero(ori_vec):
    ori
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
文本相似计算一直是自然语言处理领域研究中的一个基础问题。而文本语义相似计算则是在文本相似计算基础上增加了语义分析,在语义层面对文本相似度作进一步的分析研究,具有广阔的应用背景。本文针对句子级别的文本语义相似计算问题,提出了应用结构化特征和神经网络的方法,并将该方法应用到一个实际的问答系统中,取得了良好的效果。本文深入研究文本语义相似计算方法,主要研究内容如下:(1)基于结构化表示的文本语义相似计算方法针对句子级文本相似计算方法中平面特征表征性弱的问题,本文提出了应用结构化特征来表示句子级文本的句法、语义等信息。在浅层句法树和依存关系树的基础上,获得了基于短语的浅层句法树PST(Phrase-based Shallow Tree)和基于短语的依存树PDT(Phrase-based Dependency Tree)的结构化特征,并与平面特征向量相结合,使用支持向量回归模型进行文本语义相似计算。实验结果表明,加入PST或PDT特征可以分别使皮尔逊相关系数比基准系统提高0.054和0.041。(2)基于Tree-LSTM的文本语义相似计算方法为了进一步提高长文本语义相似计算性能,本文提出应用深度学习方法对长文本进行语义相似计算研究。首先,设计了适合神经网络模型的新的基于短语的浅层句法树NPST(New PST)和新的基于短语的依存树NPDT(New PDT)结构化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值