专利相关笔记

岁岁平安2.0

已于 2024-01-09 13:46:55 修改

阅读量361

点赞数 9

文章标签：笔记

于 2024-01-04 16:06:42 首次发布

本文链接：https://blog.csdn.net/weixin_39371280/article/details/135389533

版权

CN116483971A用户问题智能回答方法、金融系统及存储介质

[旧方法]
1.分词
(1)得到用户问题&历史问题们的分词结果
2.向量化
(1)计算分词的向量。用BERT模型，分别获得用户和历史问题的分词向量。
(2)计算问题的向量。组合问题中包含的分词的向量，得到问题的向量。
3.计算相似度
(1)用余弦相似度计算代表问题的不同向量间的距离

[新方法]
1.分词
(1)数据预处理。清洗、文本纠错
(2)提取问题关键词。TF-IDF，每个问题提取后，得到一个或多个关键词。
2.向量化
(1)计算多维度特征
①关键词的词序
②关键词的词性
③句子长度
(2)计算句子之间的余弦相似度：用分词的向量组合，得到句子的向量
3.计算相似度
(1)将2.1和2.2加权求和

CN117151228A一种基于大模型与知识库生成的智能客服系统

系统 = [1]训练样本对获取模块 + [2]预测模块 + [3]输出模块
下面扩展一下[2]：词嵌入表示
1.embedding
(1)构建问题和回答对
①用pre-trained word2vec得到向量表示
②超参（一个单词的向量维度）是[1]中问题-回答对的sample的个数
③更新向量表示
④1.1.1得到的向量，丢进神经网络（残差+ReLU，叠两层），得到新的向量表示
2.计算embedding的隐藏状态
(1)捕捉问题和回答之间的关联
①计算注意力分数矩阵
(2)分别编码问题和回答的上下文信息
(3)用2.1和2.2计算，隐藏状态
3.overall就是transformer做带上下文的匹配