chaser&upper
西电CS硕士在读,热爱Coding,喜欢分享,欢迎您与我交流~
展开
-
PyTorch 最新安装教程(2021-07-27)
PyTorch 最新安装教程(2021-07-27)前言1. 安装 Anaconda2. 检查显卡,更新驱动3. 创建PyTorch环境4. 配置清华TUNA镜像源5. 安装 PyTorch6. 测试前言万事开头难!这句话又一次被我验证。记得前不久刚陷入Tensorflow2.0的安装困境,这一次又被PyTorch 搞哭辽。孩子太难了o(╥﹏╥)o,不过还好最终成功安装,感谢全网资源,感谢大佬们的博客!被我一次一次试了出来。1. 安装 AnacondaAnaconda 是一个用于科学计算的 P原创 2021-07-27 22:32:31 · 225687 阅读 · 801 评论 -
Python中FuzzyWuzzy/difflib的模糊字符串匹配
模糊字符串匹配是查找与给定模式大致匹配(而不是完全匹配)的字符串的过程,就像字面上一样。因此,它也被称为近似字符串匹配。通常,这些字符串匹配的模式是另一个字符串。两个字符串之间的接近程度是使用 距离(也称为编辑距离)测量的,它基本上基于将一个字符串转换为另一个字符串的精确匹配所需的基元操作的计数。匹配的接近度通常以编辑距离来衡量,编辑距离是将字符串转换为完全匹配所需的基元操作数。这些基元操作可以包括:插入(在给定位置插入新字符)删除(删除特定字符)替换(用新字符替换字符)换位(交换两个字母的位置)、许多组原创 2023-04-15 17:29:44 · 562 阅读 · 1 评论 -
安装使用中文近义词工具包:Synonyms
Synonyms是一个中文近义词工具包,更好的中文近义词:聊天机器人、智能问答工具包。它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。由北邮大神开发!(含具体用法)原创 2023-03-02 21:45:07 · 540 阅读 · 0 评论 -
【NLP】自然语言处理的前世今生
自然语言是指汉语、英语等人们日常使用的语言,是随着人类社会发展自然而然的演变而来的语言,不是人造的语言,自然语言是人类学习生活的重要工具。或者说,自然语言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。处理包含理解、转化、生成等过程。自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字(如果是英文即为字符)、词、句、段落、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。原创 2023-03-02 21:11:22 · 382 阅读 · 0 评论 -
【NLP】一文读懂命名实体识别
本文对自然语言基础技术之命名实体识别进行了相对全面的简绍,包括定义、发展历史、常见方法、以及相关数据集,最后推荐一大波python实战利器,并且包括工具的用法。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。原创 2023-03-02 20:58:47 · 174 阅读 · 0 评论 -
【NLP】什么是依存句法分析?
本文简要介绍了自然语言处理中极其重要的句法分析,并侧重对依存句法分析进行了重点总结,包括定义、重要概念、基本方法、性能评价、依存分析数据集,最后,分享了一些流行的工具以及工具实战例子。维基百科是这样描述的依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法。原创 2023-03-02 20:43:38 · 189 阅读 · 0 评论 -
【NLP】自然语言处理的前馈网络
自然语言处理的前馈网络多层感知机简单示例:XOR在 PyTorch 中实现 MLPExample: Surname Classification with a Multilayer Perceptron姓氏数据集`Vocabulary`,`Vectorizer`和`DataLoader`词汇表的类`SurnameVectorizer`姓氏分类器模型训练例程训练循环模型评估和预测在测试数据集上评估为新的姓氏获取前`k`个预测MLPs 正则化:权重正则化和结构化正则化(或丢弃)卷积神经网络历史背景CNN 超参数原创 2022-12-29 19:58:54 · 220 阅读 · 0 评论 -
【哈工大自然语言处理LTP工具箱】pyltp在Windows11下的安装使用
哈工大自然语言处理ltp在windows10下的安装使用pyltp前言基本环境报错解决方法pyltp使用教程前言LTP(Language Technology Platform)语言技术平台。是哈工大出品的自然语言处理工具箱, LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。pyltp是python下对ltp(c++)的封装. 在linux下我们很容易的安装pyltp, 因为各种编译工具比较方便. 但是在windows下需要安装vs并且还得原创 2021-12-31 22:05:07 · 1688 阅读 · 0 评论 -
【自然语言处理工具箱 LTP 】pyltp 使用教程
【自然语言处理工具箱 LTP 】pyltp 使用使用前请先下载完整模型请注意编码分句分词使用分词外部词典词性标注命名实体识别pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。使用前请先下载完整模型请先下载完整的 LTP 模型文件下载地址:百度云 7G+大小当前模型版本 - 3.4.0请确保下载的模型版本与当前版本的 pyltp 对应,否则会导致程序无法正确加载模型。放到任意方便调用的地方即可, 因为程序里需要你原创 2021-12-31 22:02:25 · 2680 阅读 · 0 评论 -
【NLP】智能问答系统
自然语言处理-智能问答系统1. 问答系统简介2. 基于Attention机制的上下文分类算法在问答系统中的应用3. 搭建基于检索的问答系统2.1 导入所需的库2.2 读取文件2.3 理解数据(可视化分析/统计信息)2.4 文本预处理2.5 文本表示2.6 对于用户的输入问题,找到相似度TOP5高的问题,并把5个潜在的答案做返回2.7 使用倒排表的方法进行优化2.8 文本表示优化:使用词向量表示文本2.9 对于用户的输入问题,找到相似度TOP5高的问题,并把5个潜在的答案做返回3. 其他相似度计算1. 问答原创 2021-11-18 20:41:32 · 7058 阅读 · 1 评论 -
【NLP】文档集数据处理 gensim corpora.Dictionary 的简单使用
【NLP】文档集数据处理 gensim corpora.Dictionary1. corpora 和 dictionary2. 词典操作3. 存储4. 其他操作5. 分批处理和分布式计算6. models7. similarities8. 实例8.1 属性8.2 过滤8.3 语料库gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转化为词向量。1. corp原创 2021-11-05 07:46:42 · 2018 阅读 · 0 评论 -
【NLP】神经网络基础组件
【NLP】神经网络基础组件神经网络基础组件感知机:最简单的神经网络激活函数SigmoidTanhReLUSoftmax损失函数均方误差损失类别交叉熵损失二元交叉熵深入监督学习构造玩具数据选择模型转换概率到具体类选择损失函数选择优化器放到一起:基于梯度的监督学习辅助训练概念正确度量模型表现:评估度量正确度量模型表现:分割数据集了解什么时候停止训练查找正确的超参数正则化示例:分类餐馆评论的情感Yelp 评论数据集理解 PyTorch 的数据集表示`Vocabulary`,`Vectorizer`和`DataLo原创 2021-11-03 20:59:22 · 511 阅读 · 0 评论 -
【PyTorch 自然语言处理】传统 NLP 快速回顾(计算语言学)
PyTorch 自然语言处理传统 NLP 快速回顾语料库,标记和类型一元组,二元组,三元组,...,N 元组词形和词干分类句子和文档分类单词:词性标注分类短语:分块和命名实体识别句子结构单词意义和情感总结参考文献传统 NLP 快速回顾本文标题:Natural-Language-Processing-with-PyTorch(二)文章作者:Yif Du发布时间:2018 年 12 月 18 日 - 13:12最后更新:2019 年 02 月 16 日 - 23:02原始链接:http://yif原创 2021-10-25 21:58:50 · 693 阅读 · 0 评论 -
【NLP经典案例】Transformer 构建语言模型
Transformer构建语言模型引言1. 导入必备的工具包2. 导入wikiText-2数据集并作基本处理3. 构建用于模型输入的批次化数据4. 构建训练和评估函数5. 进行训练和评估(包括验证以及测试)引言什么是语言模型:以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型.# 语言模型的训练语料一般来自于文章,对应的源文本和目标文本形如:src1 = "I can do" tgt1 = "can do it"src2 = "c原创 2021-10-24 18:00:18 · 895 阅读 · 0 评论 -
【NLP】Transformer架构解析(二)
【NLP】Transformer架构解析(二)【NLP】Transformer架构解析(一)3. 编码器部分实现3.1 掩码张量3.2 注意力机制3.3 多头注意力机制3.4 前馈全连接层3.5 规范化层3.6 子层连接结构3.7 编码器层3.8 编码器【NLP】Transformer架构解析(一)请参考:【NLP】Transformer架构解析(一)3. 编码器部分实现编码器部分:由N个编码器层堆叠而成每个编码器层由两个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以原创 2021-10-24 17:41:01 · 535 阅读 · 0 评论 -
【NLP】Transformer架构解析(一)
【NLP】Transformer架构解析1. 认识Transformer架构1.1 Transformer模型的作用1.2 Transformer总体架构图2. 输入部分实现2.1 文本嵌入层的作用2.2 位置编码器的作用1. 认识Transformer架构1.1 Transformer模型的作用基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型,用于不同任务的迁移学习.声明:在接下来的架构分析中, 我原创 2021-10-24 17:27:45 · 691 阅读 · 0 评论 -
【NLP】Transformer背景介绍
【NLP】Transformer背景介绍1. Transformer的诞生2. Transformer的优势3. Transformer的市场1. Transformer的诞生2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!论文地址: https://arxiv.org/pdf/1原创 2021-10-24 16:52:58 · 2766 阅读 · 0 评论 -
【RNN经典案例】使用seq2seq模型架构实现英译法任务
使用seq2seq模型架构实现英译法任务前言1. 导入必备的工具包2. 数据预处理2.1 将指定语言中的词汇映射成数值2.2 字符规范化2.3 将持久化文件中的数据加载到内存, 并实例化类Lang2.4 过滤出符合我们要求的语言对2.5 对以上数据准备函数进行整合, 并使用类Lang对语言对进行数值映射2.6 将语言对转化为模型输入需要的张量3. 构建基于GRU的编码器和解码器3.1 构建基于GRU的编码器3.2 构建基于GRU的解码器3.3 构建基于GRU和Attention的解码器4. 构建模型训练函数原创 2021-10-14 20:26:40 · 749 阅读 · 0 评论 -
【RNN经典案例实战】使用RNN、LSTM、GRU模型构建姓名分类器
RNN实战-使用RNN、LSTM、GRU模型构建人名分类器前言1. 环境准备2. 数据处理3. 构建RNN模型4. 构建训练函数并进行训练5. 构建评估函数并进行预测6. RNN 模型构建姓名分类器前言学习目标:了解有关人名分类问题和有关数据.掌握使用RNN构建人名分类器实现过程.关于人名分类问题:以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以原创 2021-10-12 14:32:44 · 1385 阅读 · 0 评论 -
【RNN经典案例】使用RNN模型构建人名分类器(RNN实战-姓名分类)
RNN经典案例-构建人名分类器前言Step1 - 数据处理Step2 - 定义网络结构Step3 - 定义损失函数Step4 - 定义优化器Step5 - 模型训练Step6 - 验证模型效果Step7 - 模型保存Step8 - 结果展示Step9 - 模型加载Step10 - 完整代码前言数据集下载地址:https://download.pytorch.org/tutorial/data.zip本项目以 RNN 实战流程讲解为主,旨在快速入门上手.本项目流程规范为作者个人理解,不做指导性原创 2021-10-12 13:49:22 · 2793 阅读 · 1 评论 -
【RNN架构解析】GRU 模型 & 注意力机制
【NLP】GRU 模型1. GRU 模型1.1 GRU的内部结构图和计算公式1.2 Pytorch中GRU工具的使用1.3 GRU的优缺点2. 注意力机制2.1 什么是注意力机制2.2 注意力机制的作用2.3 注意力机制实现步骤1. GRU 模型学习目标了解GRU内部结构及计算公式.掌握Pytorch中GRU工具的使用.了解GRU的优势与缺点.GRU(Gated Recurrent Unit)也称门控循环单元结构, 它也是传统RNN的变体**, 同LSTM一样能够有效捕捉长序列之间的语义关联原创 2021-10-07 09:43:59 · 7623 阅读 · 4 评论 -
【RNN架构解析】LSTM 模型
LSTM 模型前言1. LSTM 内部结构图2. Bi-LSTM 介绍3. LSTM 代码实现4. LSTM 优缺点前言了解LSTM内部结构及计算公式.掌握Pytorch中LSTM工具的使用.了解LSTM的优势与缺点.LSTM(Long Short-Term Memory)也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时LSTM的结构更复杂, 它的核心结构可以分为四个部分去解析:遗忘门输入门细胞状态输出门原创 2021-10-07 09:26:35 · 1654 阅读 · 0 评论 -
【强烈推荐】RNN 架构解析(循环神经网络)
【NLP】RNN 架构解析1. 认识RNN模型1.1 什么是RNN模型1.2 RNN模型的作用1.3 RNN模型的分类1.4 总结2. 传统RNN模型2.1 传统RNN的内部结构图1. 认识RNN模型1.1 什么是RNN模型RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结原创 2021-10-06 20:24:22 · 1013 阅读 · 0 评论 -
【NLP】带你认识经典的序列模型-HMM与CRF
认识经典的序列模型 HMM与CRF1. HMM模型1.1 HMM模型的输入和输出1.2 HMM模型的作用1.3 HMM模型使用过程简述2. CRF模型2.1 CRF模型的输入和输出2.2 CRF模型的作用2.3 CRF模型使用过程简述3. HMM与CRF模型之间差异4. HMM和CRF的发展现状总结1. HMM模型1.1 HMM模型的输入和输出HMM(Hidden Markov Model), 中文称作隐含马尔科夫模型, 因俄国数学家马尔可夫而得名. 它一般以文本序列数据为输入, 以该序列对应的隐含序原创 2021-10-05 20:19:39 · 509 阅读 · 0 评论 -
【NLP】新闻主题分类任务
【NLP】新闻主题分类任务前言1. 构建带有Embedding层的文本分类模型2. 对数据进行batch处理3. 构建训练与验证函数4. 进行模型训练和验证5. 查看embedding层嵌入的词向量总结前言学习目标了解有关新闻主题分类和有关数据.掌握使用浅层网络构建新闻主题分类器的实现过程.关于新闻主题分类任务:以一段新闻报道中的文本描述内容为输入, 使用模型帮助我们判断它最有可能属于哪一种类型的新闻, 这是典型的文本分类问题, 我们这里假定每种类型是互斥的, 即文本描述有且只有一原创 2021-10-05 19:45:59 · 1184 阅读 · 0 评论 -
【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务(PyTorch版)
AG_NEWS 新闻主题分类任务(PyTorch版)前言1. 使用 N 元组加载数据2. 安装 Torch-GPU&TorchText3. 访问原始数据集迭代器4. 准备数据处理管道5. 生成数据批次和迭代器6. 定义模型7. 初始化一个实例8. 定义训练模型和评估结果的函数9. 分割数据集并运行模型10. 测试随机新闻11. 完整代码总结前言这是TorchText官方的一个教程,更多内容.请参考官方文档:PyTorch / TorchText .本教程说明如何使用torchtext中的文本分原创 2021-10-05 19:44:50 · 2224 阅读 · 4 评论 -
from torchtext.datasets import text_classification 报错解决:cannot import name ‘text_classification‘
from torchtext.datasets import text_classification 报错解决问题描述解决方法问题描述做文本分类的时候发现这个问题:from torchtext.datasets import text_classification报错:ImportError: cannot import name 'text_classification' from 'torchtext.datasets'阅读源码发现没有这个模块,查看官方文档发现新版本较大改动。解决方法更原创 2021-10-03 21:12:46 · 2766 阅读 · 0 评论 -
【Keras 数据预处理】文本转换为向量&文本预处理(超详解)
文本转换为向量&文本预处理实例演示模块详解实例演示from keras.preprocessing.text import Tokenizer # one-hot编码from keras.preprocessing import sequence # 数据长度规范化 text1 = "学习keras的Tokenizer"text2 = "就是这么简单"texts = [text1, text2] """# num_words 表示用多少词语生成词典(vocabulary)#原创 2021-10-03 20:06:01 · 961 阅读 · 0 评论 -
【2021/10/3】from keras.preprocessing import sequence 报错解决
from keras.preprocessing import sequence 报错解决问题描述解决方法问题描述在文本长度规范时,发生报错:from keras.preprocessing import sequence# cutlen根据数据分析中句子长度分布,覆盖90%左右语料的最短长度.# 这里假定cutlen为10cutlen = 10def padding(x_train): """ description: 对输入文本张量进行长度规范 :p原创 2021-10-03 19:41:17 · 5561 阅读 · 0 评论 -
【建议收藏】jieba/hanlp 词性对照表
【建议收藏】jieba/hanlp 词性对照表jieba 词性对照表hanlp 词性对照表jieba 词性对照表- a 形容词 - ad 副形词 - ag 形容词性语素 - an 名形词 - b 区别词 - c 连词 - d 副词 - df - dg 副语素 - e 叹词 - f 方位词 - g 语素 - h 前接成分 - i 成语 - j 简称略称 - k 后接成分 - l 习用语 - m 数词原创 2021-10-03 17:22:01 · 564 阅读 · 0 评论 -
【NLP】文本特征处理&文本数据增强
文本特征处理&数据增强1. 文本特征处理1.1 什么是n-gram特征1.2 文本长度规范及其作用2. 文本数据增强2.1 什么是回译数据增强法2.2 回译数据增强实现总结1. 文本特征处理了解文本特征处理的作用.掌握实现常见的文本特征处理的具体方法.文本特征处理的作用:文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征, 以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范. 这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.原创 2021-10-03 17:19:02 · 973 阅读 · 0 评论 -
【自然语言处理】PyTorch 基础入门(必备基础知识)
PyTorch 基础实践PyTorch 基础安装 PyTorch创建张量张量类型和大小张量操作索引,切片和连接张量和计算图CUDA 张量练习Solutions总结PyTorch 基础在本书中,我们广泛地使用 PyTorch 来实现我们的深度学习模型。PyTorch 是一个开源、社区驱动的深度学习框架。与 Theano、Caffe 和 TensorFlow 不同,PyTorch 实现了一种“基于磁带的自动微分”方法,允许我们动态定义和执行计算图形。这对于调试和用最少的努力构建复杂的模型非常有帮助。动态原创 2021-10-01 16:51:45 · 830 阅读 · 0 评论 -
【开山篇】自然语言处理(PyTorch版)
自然语言处理(PyTorch版)PyTorch 自然语言处理自然语言处理-基础介绍监督学习范式观测和目标编码One-Hot 表示TF 表示TF-IDF 表示目标编码计算图引用说明贡献指南联系方式负责人其他下载DockerPYPINPMPyTorch 自然语言处理自然语言处理-基础介绍本文标题:Natural-Language-Processing-with-PyTorch(一)文章作者:Yif Du发布时间:2018 年 12 月 17 日 - 09:12最后更新:2019 年 02 月 1原创 2021-10-01 16:43:02 · 2506 阅读 · 1 评论 -
【一文搞定MEMM和CRF】最大熵马尔科夫和CRF
最大熵马尔科夫和CRF最大熵马尔科夫和CRF条件随机场最大熵马尔科夫和CRF最大熵模型(MaxEnt):指的是多元逻辑回归由于等概率的分布具有最大熵,所以最大熵的模型通过词性标注问题来描述就是:在没有任何假设的情况下,认为每种词性的概率都是相同的,假设有10中词性,那么每个词性的概率都是1/10如果语料表明,所有的词语出现的词性只有10个中的四个,那么此时,调整所有词的词性为A:1/4,B:1/4,C:1.4,D:1/4,E:0....A:1/4 ,B:1/4,C:1.4,D:1/4,E:0..原创 2021-08-10 11:21:21 · 482 阅读 · 0 评论 -
【一文搞定】HMM(隐马尔可夫)
HMM(隐马尔可夫)学习目标1. 自动机2. 马尔可夫链和马尔可夫假设3. 隐马尔可夫模型3.1 马尔科夫模型中的三个问题:3.2 似然度问题:3.3 解码问题4. 案例4.1 如何对句子进行分词4.2 统计概率4.3 使用viterbi算法进行解码学习目标知道什么是自动机知道什么是马尔可夫链知道隐马尔可夫是什么知道隐马尔可夫的原理是什么知道如何使用隐马尔可夫完成分词,词性标注等任务知道MEMM是什么知道CRF是什么1. 自动机自动机:(又称为 有限自动机,有限状态自动机,FSA)是原创 2021-08-09 11:09:40 · 586 阅读 · 2 评论 -
【NLP】最大匹配法
最大匹配法学习目标1. 起源2. 正向最大匹配法3. 逆向最大匹配法4. 双向最大匹配法学习目标知道正向最大匹配法知道逆向最大匹配法知道双向最大匹配法1. 起源最大匹配法是最简单的分词方法,他完全使用词典进行分词,如果词典好,则分词的效果好2. 正向最大匹配法正向,即从左往右进行匹配#Maximum Match Method 最大匹配法class MM: def __init__(self): self.window_size = 4 def c原创 2021-08-09 11:01:30 · 466 阅读 · 0 评论 -
【问答机器人】代码的封装和提供接口
QABot-代码封装和对外提供接口1. 完成代码的封装1.1 完成意图识别代码封装1.2 完成对chatbot代码的封装1.3 完成对问答系统召回的封装1.4 完成对问答排序模型的封装1.5 实现对聊天记录的保存2. 使用GRPC对外提供服务2.1 安装grpc相关环境2.2 定义GRPC的接口2.3 编译生成protobuf文件2.4 使用grpc提供服务3. 使用supervisor完成对服务的管理3.1 编写简单的执行脚本3.2 安装、配置supervisor1. 完成代码的封装代码封装过程中,原创 2021-08-09 10:58:43 · 509 阅读 · 2 评论 -
【问答机器人】QA机器人排序模型
问答机器人排序模型1. 排序模型的介绍2. 排序模型的实现思路2.1 准备数据2.1.1 两个输入2.1.2 相似度准备2.2 构建模型2.3 模型的评估3. 代码实现3.1 数据准备3.1.1 对文本进行分词分开存储3.1.2 准备word Sequence代码3.1.3 准备Dataset和DataLoader3.2 模型的搭建3.2.1 编码部分atttention的计算Pooling实现3.2.2 相似度计算部分3.2.3 损失函数部分使用DNN+均方误差来计算得到结果使用对比损失来计算得到结果3.原创 2021-08-09 10:55:30 · 1239 阅读 · 3 评论 -
【问答机器人】召回优化
【QA_Bot】召回过程优化1. 优化思路2. 通过BM25算法代替TFIDF2.1 BM25算法原理2.2 BM25算法实现2.3 修改之前的召回代码3. 使用Fasttext实现获取句子向量3.1 基础方法介绍3.2 训练模型和封装代码3.2.1 分词写入文件3.2.2 训练模型3.2.3 基础封装1. 优化思路前面的学习,我们能够返回相似的召回结果,但是,如何让这些结果更加准确呢?我们可以从下面的角度出发:tfidf使用的是词频和整个文档的词语,如果用户问题的某个词语没有出现过,那么此时,原创 2021-08-09 10:48:45 · 488 阅读 · 3 评论 -
【问答机器人】QA机器人的召回
问答机器人的召回1. 召回的流程2. 对现有问答对的准备3. 把问题转化为向量4. 计算相似度4.1 pysparnn的介绍4.2 pysparnn的使用方法4.3 使用pysparnn完成召回的过程4.4 pysparnn的原理介绍1. 召回的流程流程如下:准备数据,问答对的数据等问题转化为向量计算相似度2. 对现有问答对的准备这里说的问答对,是带有标准答案的问题,后续命中问答对中的问题后,会返回该问题对应的答案为了后续使用方便,我们可以把现有问答对的处理成如下的格式,可以考虑存入数据原创 2021-08-09 10:42:02 · 495 阅读 · 0 评论