词嵌入-相似度计算

#利用维基百科训练的模型,完成词嵌入
import tensorflow_hub as hub

embed = hub.load("https://tfhub.dev/google/Wiki-words-500/2")
embeddings = embed(["cat is on the mat", "dog is in the fog"])
english_sentences = ["dog", "Puppies are nice.", "I enjoy taking long walks along the beach with my dog."]
english_embedding=embed(english_sentences)


print(embeddings)
print(english_embedding)
print(english_embedding.shape)````


```python
#第二个词嵌入模型代码


import tensorflow_hub as hub
import numpy as np
import tensorflow_text

# Some texts of different lengths.
english_sentences = ["dog", "Puppies are nice.", "I enjoy taking long walks along the beach with my dog."]
italian_sentences = ["cane", "I cuccioli sono carini.", "Mi piace fare lunghe passeggiate lungo la spiaggia con il mio cane."]
chinese_sentences = ['狗','狗是友好的','我喜欢和狗狗一起散步']

embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder-multilingual/3")

# Compute embeddings.
en_result = embed(english_sentences)
it_result = embed(italian_sentences)
ch_result = embed(chinese_sentences)

# Compute similarity matrix. Higher score indicates greater similarity.
similarity_matrix_it = np.inner(en_result, it_result)
similarity_matrix_ja = np.inner(en_result, ch_result)


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
对于大规模文本相似计算,可以采用以下步骤: 1. 数据预处理:首先,对文本数据进行预处理,包括分、去除停用干化或形还原等操作。这有助于减少噪音和提取重要特征。 2. 特征表示:将文本转换为计算机可处理的特征表示形式。常用的方法包括袋模型、TF-IDF表示、嵌入(如Word2Vec、GloVe)等。根据具体任务和文本特点,选择合适的特征表示方法。 3. 相似计算:根据选择的特征表示方法,使用相应的相似计算方法来衡量文本之间的相似度。常用的相似计算方法包括余弦相似度、欧氏距离、编辑距离等。可以使用库函数或自定义函数来计算相似度。 4. 数据存储和索引:对于大规模文本数据,为了提高查询效率,通常需要使用索引技术进行存储和检索。可以使用倒排索引、近似最近邻索引(如LSH、HNSW)等来加速相似度查询过程。 5. 相似度匹配:根据具体任务需求,采用合适的匹配算法来寻找相似的文本。常见的匹配算法包括最近邻搜索、聚类、图匹配等。 6. 结果评估:对计算得到的文本相似度进行评估,可以使用人工标注的相似度作为参考,计算精确度、召回率、F1分数等指标。 在处理大规模文本相似计算时,还需要考虑计算效率和资源消耗。可以采用并行计算、分布式计算、近似计算等方法来提高计算效率。此外,对于特别大规模的数据,可以采用采样或分割数据集的方式进行处理,以减少计算量和内存占用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值