文本语义相似计算
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。
MachineLP
成功收获成果,失败收获智慧,投入收获快乐!
展开
-
[TextMatch框架] 基于召回和排序的文本搜索
git clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/core_test/text_search_test.pytests/core_test/text_search_test.pyimport sysfrom textmatch.core.text_match import TextMatchfrom text原创 2020-07-19 17:13:21 · 663 阅读 · 0 评论 -
[TextMatch框架] 生成词云
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.[TextMatch框架] : 文本匹配/文本分类/文本embedding/文本聚类/文本检索(bow/ifidf/ngramtf-df/bert/albert/bm25/…/nn/gbdt/xgb/kmeans原创 2020-06-20 10:29:26 · 258 阅读 · 0 评论 -
[文本语义相似] 基于bm25算法
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bm25算法。代码如下:import mathimport jiebafrom utils import utils# 测试文本text = '''自然语言处理是计算机科学领域...原创 2020-05-17 22:37:24 · 915 阅读 · 1 评论 -
[文本语义相似] 基于simhash相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于simhash相似度。算法描述:先计算两句子的simhash二进制编码,然后使用海明距...原创 2020-05-07 10:35:32 · 679 阅读 · 0 评论 -
[文本语义相似] 基于编辑距离相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于编辑距离相似度。import Levenshtein # 第三方库实现def...原创 2020-05-07 10:31:23 · 542 阅读 · 0 评论 -
[文本语义相似] 基于Jaccard相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于Jaccard相似度。import osimport jiebaimport ...原创 2020-05-07 10:09:20 · 932 阅读 · 0 评论 -
[文本语义相似] 基于bert的余弦距离(bert4keras实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bert的余弦距离计算相似度。...原创 2020-05-04 12:25:29 · 3815 阅读 · 1 评论 -
[文本语义相似] 基于ngram-tf-idf的余弦距离(gensim实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。基于gensim的方式如下:import os...原创 2020-05-04 09:31:30 · 533 阅读 · 0 评论 -
[文本语义相似] 基于tf-idf的余弦距离(gensim实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。基于gensim的方式如下:import osi...原创 2020-05-04 09:25:23 · 652 阅读 · 0 评论 -
[文本语义相似] 基于bow的余弦距离(gensim实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。基于gensim的方式如下:import osi...原创 2020-05-04 09:18:53 · 549 阅读 · 0 评论 -
[文本语义相似] 基于ngram-tf-idf的余弦距离(sklearn实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于ngram-tf-idf的余弦距离计算相似度。本节将介绍两种实现:基于sklearn 和...原创 2020-04-29 22:42:03 · 844 阅读 · 0 评论 -
[文本语义相似] 基于tf-idf的余弦距离(sklearn实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于tf-idf的余弦距离计算相似度。本节将介绍两种实现:基于sklearn 和 基于gen...原创 2020-04-29 22:36:54 · 834 阅读 · 0 评论 -
[文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于Word2Vec的wmdistance需要知识:(1)Word2Vec(2...原创 2020-04-29 20:08:46 · 1537 阅读 · 2 评论 -
[文本语义相似] 基于bow的余弦距离(sklearn实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。...原创 2020-04-29 20:16:56 · 495 阅读 · 0 评论