【python 走进NLP】标签别名语义相似度匹配算法

最新推荐文章于 2024-07-02 13:18:10 发布

置顶东华果汁哥

最新推荐文章于 2024-07-02 13:18:10 发布

阅读量3.1k

点赞数

分类专栏：数据科学--机器学习

本文链接：https://blog.csdn.net/u013421629/article/details/82501083

版权

数据科学--机器学习专栏收录该内容

116 篇文章 29 订阅

订阅专栏

标签别名语义相似度匹配算法：
这里写图片描述

# -*- encoding=utf-8 -*-

import pandas as pd
import numpy as np
import time
time1=time.time()


#定义一个标签有别名的合并函数
def combine_tag_name_alis(data1,data2):
    """
    :param data1: 别名集
    :param data2:标签集
    :return: 合并后的结果集
    """
    # 筛选数据，找到有别名的标签
    data3 = data1[data1['alias'].isin(data2['key'])]
    data4=data2[~data2['key'].isin(data3['alias'])]

    #语义相似标签去重
    name1= list(set(data3['name']))
    name2=list(set(data4['key']))
    name3=name1+name2
    name4=list(set(name3))


    return name4


if __name__ == '__main__':

    #  读取别名数据集
    data1 = pd.read_excel('C:/Users/xiaohu/Desktop/文本挖掘/标签语义相近发现合并算法/data/kktribe_tag_1.xlsx')

    #  读取标签数据集
    data2=pd.DataFrame({'key':['詹皇','小皇帝','内马尔','世界杯','姆巴佩','詹姆斯','姆巴佩','里奥·梅西','梅西','Lionel Andrés Messi','小老虎','凯文-杜兰特','凯文·杜兰特']})

    #  合并之后的标签集
    name=combine_tag_name_alis(data1,data2)
    print(name)



    time2 = time.time()
    print('总共耗时：' + str(time2 - time1) + 's')

['梅西', '沃尔科特', '姆巴佩', '詹姆斯', '内马尔', '杜兰特', '世界杯']
总共耗时：0.07813286781311035s

Process finished with exit code 0

东华果汁哥

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录