![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 54
一如年少模样丶
道路是曲折的,前途是光明的。
展开
-
Langchain-React范式调用API —— 大模型调用自定义工具
langchain 自定义工具 进行 react范式原创 2023-08-25 17:36:52 · 3449 阅读 · 4 评论 -
从huggingface hub 中下载模型或者数据
【代码】从huggingface hub 中下载模型或者数据。原创 2023-08-24 21:15:49 · 712 阅读 · 0 评论 -
F1值(F-Measure)、准确率(Precision)、召回率(Recall) 菜鸡版理解
F1值(F-Measure)、准确率(Precision)、召回率(Recall) 菜鸡版理解原创 2022-11-06 13:09:16 · 5381 阅读 · 1 评论 -
修改huggingface 模型output_hidden_states=True时,CUDA out of memory问题。
在使用huggingface 提供的Trainer进行模型预测时,如果训练时output_hidden_states=True,则显存占用会无限增加,最终导致CUDA out of memory 内存溢出错误。在模型的最终返回值处,把hidden_states 设置为None 即可,具体原因我也不清楚。原创 2022-10-07 16:33:32 · 1114 阅读 · 0 评论 -
Bert实现命名实体识别NER任务 Trainer类实现
Bert实现命名实体识别任务使用Transformers.trainer 进行实现1.加载数据加载数据以及数据的展示,这里使用最常见的conll2003数据集进行实验task = "ner" # Should be one of "ner", "pos" or "chunk"model_checkpoint = "distilbert-base-uncased"batch_size = 16from datasets import load_dataset, load_metric,Data原创 2022-05-13 20:41:29 · 5504 阅读 · 7 评论 -
关于Transformers库预训练模型输入的一些细节问题
输入是否需要添加开始标志[bos]、bos等特殊标志?结论:开始标志[bos]不需要手动添加,模型自动帮你添加,结束标志[eos]必须添加具体原因可以往下看1.输入是否需要添加开始标志[bos]、bos等特殊标志?在RNN的时代,对于Seq2Seq模型,我们必不可少的要对数据进行处理添加 开始标志[ bos ]和 结束标志[ eos ],这样做的目的是在解码阶段模型进行自回归语言模型时,模型可以收到一个结束标志[ eos ],并且解码的输入开始标志[ bos ],以确保模型不看到第一个真实的词。原创 2022-04-14 09:58:48 · 929 阅读 · 0 评论 -
问答系统案例----基于Bert实现知识库问答
问答系统案例----基于Bert实现知识库问答基于Transformers.Trainer实现任务描述:知识库问答也叫做知识图谱问答,模型结合知识图谱,对输入的问题进行推理和查询从而得到正确答案的一项综合性任务。知识图谱问答方法可分为两大类,一种是基于信息检索的方式,一种是基于语义解析的方式。信息检索的方式不需要生成中间结果,直接得到问题答案,十分简洁,但是对复杂问题的处理能力有限。语义解析的方式需要对输入的自然语言问题进行语义解析,再进行推理,具备解决复杂问题的能力。本教程选用信息检索的方式进行讨论原创 2022-04-10 22:03:28 · 4672 阅读 · 0 评论 -
多头注意力机制的通俗式理解
各位都很忙,废话不多说直接上图。首先 Q K V 均来自同一个数据,假设 我们有同一个 输入数据 a,则Q = Linear(a)K = Linear(a)V = Linear(a)其中,三个 Linear(·)并非同一个,拥有不同的参数。Q 代表 query – 查询, K 代表 key – 键, V 代表 value – 值我们目的 是从同一个 数据 a 中生成 含义为: 查询 某一个 键 对应的 权重,然后使用这个 权重 乘以 值 得到 经过权重分配后的 数据原创 2021-11-19 10:43:11 · 5176 阅读 · 0 评论 -
零售商品销售预测
研究、设计内容:在电子商务业务蓬勃发展的同时,零售业遭遇了寒潮。电子商务的冲击、瞬息万变的经济环境、难以捉摸的销售情况和日益冷清的大型卖场,都给零售业带来了重重困难。进入数字时代后,数据的有效使用成为零售企业颠覆传统的动力,也势必将改变零售业的格局。沃尔玛等大型零售商都积极第将数据分析与商业结合,创造了额外的经济收益。某大型零售商的数据科学家收集了不同城市10家商店1539种商品在2013年的销售数据,还定义了每个产品和商店的某些属性。本课题将的目的是建立一个销售预测模型,使得公司可以预测每个产品在特原创 2021-07-01 19:42:59 · 2981 阅读 · 11 评论 -
机器学习答案
机器学习答案选择题自行尝试答案 这里粘贴部分答案线性回归第2关 线性回归的正规方程解#encoding=utf8 import numpy as npdef mse_score(y_predict,y_test): ''' input:y_predict(ndarray):预测值 y_test(ndarray):真实值 ouput:mse(float):mse损失函数值 ''' #********* Begin ********原创 2021-06-26 16:51:32 · 9505 阅读 · 7 评论 -
交叉熵损失理解(代码对比版)
import torchfrom torch.nn.functional import cross_entropyimport numpy as npimport randomdef fix_random_seed(seed): # 设置 seed保证每次初始化相同 np.random.seed(seed) torch.manual_seed(seed) random.seed(seed) torch.backends.cudnn.determinist.原创 2021-06-21 17:20:14 · 327 阅读 · 0 评论 -
Attention机制理解(参考代码和理论)
Attention机制(全局和局部attention)1 .Luong Attention(全局attention)基于注意力机制的解码解码器RNN一个词语一个词语地产生回复句子,它利用编码器得到的上下文向量以及每个时间步的隐向量来产生句子的下一个词语。它一直产生词语直到产生句子结束符号EOS_token。仅仅使用标准RNN做解码器,会使得模型丢失掉丰富的编码端信息,因为整个句子的信息都被保存到一个上下文向量中。考虑到人们在对话时,回复语句中的每个词语会和输入语句中的不同部分的词语相关,那么在模型解原创 2021-03-04 20:22:42 · 2154 阅读 · 1 评论 -
深度学习 pytorch 困惑度计算方法
以下是我 编写的 计算 困惑度 PPL的 代码根据困惑度的定义:PPL=ecross_entropyPPL=e^{cross\_entropy}PPL=ecross_entropy其中cross_entropycross\_entropycross_entropy 就是交叉熵损失 因此只需要对 交叉熵损失求exp()注意:F.cross_entropy的参数 reduction必须要为 mean 即默认 就为 Meanfrom torch import Tensorimport numpy a原创 2021-01-21 23:27:39 · 3577 阅读 · 1 评论