基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

最新推荐文章于 2024-03-28 20:00:52 发布

weixin_34261415

最新推荐文章于 2024-03-28 20:00:52 发布

阅读量797

点赞数 3

文章标签： python

原文链接：https://my.oschina.net/u/2935389/blog/2990358

版权

本文介绍了如何使用腾讯AI Lab的中文词向量数据进行未知词和短语的向量补充，以及如何进行域内相似词搜索。通过示例展示了词向量的覆盖率、新鲜度和准确性，并提供了读取和查询词向量的技巧，以及针对未登录词的处理方法。

摘要由CSDN通过智能技术生成

2019独角兽企业重金招聘Python工程师标准>>>

AI Lab开源大规模高质量中文词向量数据，800万中文词随你用，质量非常高，就是一个词向量.txt文件都有16G之多，太夸张了。。不过的确非常有特点：

⒈ 覆盖率（Coverage）：
该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

⒉ 新鲜度（Freshness）：
该数据包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

⒊ 准确性（Accuracy）：
由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系。

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

文章目录

1 Tencent_AILab_ChineseEmbedding读入与高效查询
2 未知词、短语向量补齐与域内相似词搜索
    网络用语挖掘：
    评论观点
    同义词挖掘

1 Tencent_AILab_ChineseEmbedding读入与高效查询

来看一下一个比较常见的读入方式：lvyufeng/keras_text_sum/load_embedding.py

import numpy as np

def load_embedding(path):
    embedding_index = {}
    f = open(path,encoding='utf8')
    for index,line in enumerate(f):
        if index == 0:
            continue
        values = line.split('

最低0.47元/天解锁文章

weixin_34261415

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫