算法测试及对比度进一步增强

今天在测试相似度算法的过程中,出现了一些问题,比如

('预付卡怎么设置\n', '预付卡 设置', '预付卡怎么设置\n', '预付卡 设置', 1.029370301661967)
('预付卡怎么设置\n', '预付卡 设置', '怎么使用购物卡\n', '使用 购物卡', 0.59755888783038)
('预付卡怎么设置\n', '预付卡 设置', '购物卡怎么办理\n', '购物卡 办理', 0.59755888783038)
('预付卡怎么设置\n', '预付卡 设置', '不知道怎么激活预付卡\n', '激活 预付卡', 0.5972514130863055)

明明 【激活 预付卡】跟【预付卡 设置】的相似度,要比【使用 购物卡】高,可是为什么反而低?

根本原因是因为 预付卡与购物卡过于相似,而设置与激活又有一定的相似词,所以出现这种情况

 

目前来说,需要调的参数

top n,既要分开相似词与相同词(topn尽可能高),又要让相似词尽量相似,又要尽可能的区分不相似词的不相似度

 

 

 

激活 预付卡
(array([  71,  135,  235,  314,  326,  484,  579,  583,  693,  892,  923,
       1120, 1132, 1138, 1184, 1370, 1440, 1513, 1867, 2196, 2417, 4352],
      dtype=int64),)

 

购物卡 办理
(array([  235,   314,   326,   579,   693,   892,   970,  1138,  1184,
        1247,  1370,  1394,  1452,  1513,  2139,  2147,  2196,  2282,
        2417,  2872,  3410, 13887], dtype=int64),)

 

使用 预付卡
(array([  41,   58,  235,  257,  314,  326,  579,  596,  693,  747,  755,
        906, 1138, 1184, 1370, 1551, 1867, 2055, 2196, 2368, 2920, 4352],
      dtype=int64),)

 

我已经测试过词向量映射到句子向量了,是正确的

转载于:https://www.cnblogs.com/yjybupt/p/9952814.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值