(Python gensim+Word2Vec)实现文本相似度计算

# -*-encoding=utf-8-*-
import jieba
from gensim.models.word2vec import Word2Vec
# jieba分词返回列表
def jieba_cut(sent):
    sent1 = jieba.lcut(sent)
    return sent1
# gensim-Word2Vec模型训练
def word2vec1(sent1,sent2):
    sent1 = jieba_cut(sent1)
    sent2 = jieba_cut(sent2)
    sentences = [];sentences.append(sent1);sentences.append(sent2)
    model = Word2Vec(sentences, min_count=1)
    return model
# 输入需要分析的文本
def model1():
    sent1 = jieba_cut(input())
    sent2 = jieba_cut(input())
    return sent1,sent2
# 输出特定词在文本中的相似性比较
def sim(mo,sent1,sent2):
    for i in mo.wv.most_similar(sent1,sent2,topn=5):
        print(i[0],i[1])
    # print(mo.wv.most_similar(sent1,sent2,topn=5)
mo = word2vec1(input(),input())
yo = model1()
xo = mo.wv.n_similarity(yo[0],yo[1])
print('文本相似度:%f'%xo)
sim(mo,["互联网","信息"],["个人隐私"])
# 输出全文本词向量
print(mo.wv.vectors)
# 来自网络社交、直播、游戏、电商、金融、物流、交通、社区服务等多个应用领域运营主体的相关负责人现场签署了《深圳市APP个人信息保护自律承诺书》,向社会公开作出“不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳市委网信办主要负责同志表示,深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。头部企业要带头落实主体责任,做到“言必信、行必果”,把承诺落实在实际行动上,建立严格的个人信息保护合规制度体系,确保用户放心下载、放心使用,为全市广大APP运营企业发挥表率作用。网信部门将以开展党史学习教育“我为群众办实事”实践活动为契机,切实履行监管责任,汇聚各部门和社会各方力量,把群众急难愁盼的事抓实抓好抓到位。
# 不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。

待测文本未去除停用词

 敬请指正!

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI小龘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值