自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 谷歌学术的搜索技巧

这串表达式的含义是搜索同时包含短语relation extraction和model的文献。(三个关键词可以出现在文章中的不同位置)和。分别是并和或的意思。,需要用引号括起来。,是分别对这三个单词进行搜索。这里需要分别的原因是搜索分为。(以短语进行搜索,不分散)。,是对这一个短语进行搜索。

2024-07-27 15:16:16 33

转载 用了os.environ[‘CUDA_VISIBLE_DEVICES‘]控制显卡但device_map依旧随心所欲?

如果import进来的其他文件中import了torch,os.environ[‘CUDA_VISIBLE_DEVICES’] 也无法生效,因为执行.py文件时会优先import其他包中的torch。原因:os.environ[‘CUDA_VISIBLE_DEVICES’] 必须在import torch之前。

2024-06-25 18:08:05 40

原创 大模型中的计算精度——FP32, FP16, bfp16之类的都是什么???

这是一种加速深度学习训练的技术。其主要思想是在精度降低可忍受的范围内,使用较低精度的浮点数来表示神经网络中的权重和激活值,从而减少内存使用和计算开销,进而加速训练过程。FP32、FP16、BF16和FP8都是计算中使用的数字表示形式,特别是在浮点运算领域。这些格式主要通过它们使用的位数来区分,这影响了它们的精度、范围和内存要求。详细的精度范围我就不说了,知道了也没啥用,了解每个精度用来干嘛的就行精度应用性能FP16深度学习、神经网络训练相对于FP32有更快的计算速度和更低的内存使用量。

2024-06-15 16:28:10 2760

原创 怎么通过Python使用OpenAI(只介绍代码)

在不使用stream的ChatCompletions API调用中,响应被计算出来后一次性地返回。我:你在干嘛?GPT:我不告诉你但是流式的方式是(不是很准确,但大概这么理解)我:你在干嘛?GPT:我GPT:不GPT:告GPT:诉GPT:你所以我们在上面的代码中可以看到流式的代码当中有for循环来迭代。这是因为每一次获得的stream信息是一个字。

2024-04-12 10:41:49 650

原创 【使用Linux的基础和小技巧】

如果您的程序无响应,则可以使用kill命令手动终止它。除了知道信号之外,您还需要知道要杀死的程序的进程标识号(PID)。“ SuperUser Do ”的缩写,使您能够执行需要管理或超级用户权限的任务。切换路径,可以通过在后面添加接驱动器符号、完整路径和相对路径来实现路径的转换。使用df命令获取有关系统磁盘空间使用情况的报告,以百分比和KB表示。显示正在运行的进程以及每个进程使用多少CPU的列表。用于更改文件和目录的读取,写入和执行权限。可以更改或文件的所有权转让给指定的用户名。

2024-04-09 10:58:35 941

原创 CentOS系统的小小基础

如果你在执行什么操作后,显示这样的内容等待很长时间还是不行,那就杀死进程。首先检查系统是否有支持 CUDA 编程的 GPU,使用。如果只显示defaults那就添加吧。2、按照里面的命令换成自己想要的源。要确保你的脚本有适当的执行权限。命令查看当前GPU的型号。

2024-04-08 16:09:57 320

原创 【大模型运行漫长的开始】 关于多GPU使用 device_map

这是通过自定义采样器实现的,它可以在训练期间自动将部分批次发送到不同的设备,从而允许每个设备只需要储存数据的一部分,而不是一次将数据复制四份存入内存。在模型的前向传播和反向传播过程中,每个部分都会被正确地分配到指定的设备上进行计算。在深度学习中,模型通常由多个层和参数组成,这些层和参数可以在不同的设备上进行计算和存储。它是一个用于指定模型中各个部分所在设备的映射表,它可以简单控制模型层部署在哪些硬件上。如果你有特殊的需求,需要使用指定的显卡那就需要设置这个需要device map 字典。

2024-04-08 16:05:13 2391

原创 【pycharm使用ssh连接服务器】

重新点击当前的python解释器,这时候会触发重建索引即index。打开pycharm – File – Setting。1、最简单方法, pip安装之后,

2024-03-11 18:31:05 2033

原创 pip问题们

安装特定版本的package,通过使用==, >=, <=, >, <来指定一个版本号。有的时候安装一些库会因为连接失败总是安装失败,这种时候直接安装到本地即可。首先下载到本地,在文件夹处打开终端,进入自己的虚拟环境中。3、进入自己的anaconda虚拟环境中。使用项目中的txt文件,安装第三方库。1、把git网站中的内容下载到本地。2、打开那个文件夹,然后打开终端。

2024-01-17 19:01:21 547

原创 【部署LLaMa到自己的Linux服务器】

要想使用Llama2,首先需要向meta公司申请使用许可,否则你将无法下载到Llama2的模型权重。填入对应信息(主要是邮箱)后,勾选页面最底部的 “I accept the terms and conditions”,点击 “Accept and Continue”,跳转到下图界面即可。在LLaMa文件夹中打开终端,运行download.sh文件。第一个输入邮件中给你的超长链接,第二个输入你需要的模型。开头的一大串链接即为下面下载模型时需要验证的内容。然后对应的邮箱得到验证的链接,这个。

2024-01-16 16:25:40 3362 1

原创 关于cuda error:device-side assert triggered的解决方法

从GPU切换到CPU,为什么错了都会明明白白的告诉你。

2023-10-25 17:14:45 193

原创 联合关系抽取论文(一)——TPLinker

TPLinker整体标注Tag框架是基于token pair进行的,其本质上就是一个span矩阵。这种方法也可以成为Multi-Head方法。Multi-Head方法重点在于构建一个==[batch_size, seq_len, seq_len, hidden]==维度的矩阵(后续成为table。

2023-09-19 15:48:26 329

原创 Ubuntu安装后的事情【新手向】

删除与LibreOffice相关的配置文件(自动移除不需要的包)方法1:用了这命令后就可以看了,但是是用于ubuntu 18.04的,我是20.04。1、备份自己的镜像源防止出错,路径/etc/apt/ 文件名sources.list.bak。在界面按i键,然后开始输入自己所想的东西。想要退出保存的时候按Esc,然后输入。之后按照终端上问题对应的挨着安装即可解决,3、选一个源换上有清华源、阿里源、中科源。写在文件中后记得保存,保存后要更新源。方法2:速度比第一个快多了,也可用。ubuntu自带的源。

2023-08-21 11:49:00 137

原创 关于pytroch的随机数种子

网络的输入形状(包括 batch size,图片大小,输入的通道)是不变的,其实也就是一般情况下都比较适用。反之,如果卷积层的设置一直变化,网络的输入数据在每次 iteration 都变化的话,会导致 cnDNN 每次都会去寻找一遍最优配置,这样反而会降低运行效率。它可以让内置的 cuDNN 的 auto-tuner 自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题。,为整个网络的每个卷积层搜索最适合它的卷积实现算法,进而。如果为Ture,将会让程序在开始时。但是是有使用前提的,

2023-07-05 14:01:36 221

原创 在pycharm中使用cmd方式运行代码

在GitHub中很对代码运行使用的是cmd的命令行来执行。这个方式对新手不太友好,且不好调试代码。为了能在pycharm中直接运行(以便能弄清代码和参数更改)第二步,重点是在找到匹配的环境和在cmd输入的命令在Parameters,就是输入。第一步,找到项目中的主程序,然后点击pycharm最上面的Run。第三步、在主程序文件中开始点击运行吧。之后的命令应该就ok了。

2023-04-06 17:28:48 4948 1

原创 SpaCy的安装办法

打开cmd或者Anaconda Prompt,我们需要进入到模型的路径里。(Anaconda Prompt中进入下载模型的盘符)打开cmd或者Anaconda Prompt,输入。方法1不行的时候试试这个。

2023-03-21 13:11:21 424

原创 关系抽取方面的基础

若有两个存在着关系的实体,我们可将两个实体分别成为主体和客体,那么关系抽取就是在非结构或半结构化数据中找出主体与客体之间存在的关系,并将其表示为实体关系三元组,即(主体,关系,客体)。

2023-03-11 14:18:03 1586

原创 一些NLP术语

除此之外,丰富多样的下游任务也使得预训练和微调阶段的设计变得繁琐复杂,因此研究者们希望探索出更小巧轻量、更普适高效的方法,Prompt就是一个沿着此方向的尝试。k 代表小样本中类别的数量,n 代表每个类别有多少数据。这个时候,你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数,然后在训练的过程中,依据结果不断进行一些修改。首先使用公共数据集进行训练,而这些数据集可能不会很好完成你真正想完成的内容,这就意味着在解决的实际问题的数据集上,要微调这个预训练模型,而这个任务称为下游任务。

2023-02-15 19:32:39 493

原创 huggingface的使用辛酸史

https://blog.csdn.net/qq_35459198/article/details/116236897https://blog.csdn.net/qq_52852138/article/details/128474948

2023-02-07 21:51:18 385

原创 IEEE参考文献格式生成 之 谢谢你Zotero!

首先要有一个Zotero,把你的要参考的pdf挪到里面,等zotero生成条目的时候右击。一开始在看到论文模板的参考文献格式时就蒙了,不知道怎么搞,墨迹了好久才发现的方法!这个词,就是用来引用文献的,幸运的话还会给你.bib的下载路径。,如果在这里找到pdf就回到方法1中就ok了。里面去,可能会找到该文献的官方网站。,剩下的按照下图来就行。如果没有的话,可以到。

2023-02-01 22:01:48 12154 4

原创 关于NLP的Tokenization

如果unfriendly被标记为一个稀有词,它将被分解为un-friendly-ly,这些单位都是有意义的单位,un的意思是相反的,friend是一个名词,ly则变成副词。它不是从一组基本符号开始,更具某些规则进行合并,如BPE或WordPiece,而是从一个庞大的词汇量开始,例如所有预处理的单词和最常见的子字符串,并逐步减少。有的词跟具有特定的意思,另外有些词根没有实际含义,因此通过词根来大概猜测我们没见过的单词的意思。中文:我爱吃苹果 --> 我 / 爱 / 吃 / 苹 / 果。

2023-01-07 20:08:48 189

原创 Batch Normalization & Layer Normalization

BN:不同样本,同一特征,归一化LN:一句话,各个词嵌入的特征,归一化。

2022-12-30 17:52:46 126

原创 激活函数0

Tanh 激活函数与 Sigmoid 函数类似,Tanh 函数也使用真值,但 Tanh 函数将其压缩至-1 到 1 的区间内。对于长度为 K 的任意实向量,Softmax 可以将其压缩为长度为 K,值在(0,1)范围内,并且向量中元素的总和为 1 的实向量。Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,ReLU 函数是深度学习中较为流行的一种激活函数,相比于 sigmoid 函数和 tanh 函数,它具有如下。

2022-12-30 16:19:05 220

原创 AxMath pj 并添加到WPS

链接:https://pan.baidu.com/s/1oDlEPO3hIqpB-gP9V53BvQ提取码:n9paWPS -> 开发工具 -> 加载项 -> 添加 -> 选择文件路径这个路径我建议大家下载一个软件叫,在里面搜索 这个文件,然后把文件路径添加进去就ok了

2022-11-25 11:06:08 4287 2

原创 通过文本构建词典

【代码】通过文本构建词典。

2022-11-19 19:57:59 217

原创 KaiKKi数据集

最近搞文本分类,需要用到单词的释义。特此记录。

2022-11-15 13:40:37 80

原创 Zotero插件及使用方式

1.添加中文 PDF/CAJ 时,

2022-10-24 22:51:42 1421

原创 线性判别分析LDA

以上就是LDA的主要思想了,当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。由于LDA需要让不同类别的数据的类别中心之间的距离尽可能的大,也就是我们要最大化||wTμ0−wTμ1||22,同时我们希望同一种类别数据的投影点尽可能的接近,也就是要同类样本投影点的协方差wTΣ0w和wTΣ1w尽可能的小,即最小化wTΣ0w+wTΣ1w。LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

2022-09-29 22:50:49 162

原创 常用的数据无量纲化方法

z-score标准化也叫标准差标准化,代表的是分值偏离均值的程度,经过处理的数据符合标准正态分布,即均值为0,标准差为1。该方法是对原始数据进行线性变换,将其映射到[0,1]之间([-1,1]之间也行)。其中,x是原始数据,u是样本均值,σ是样本标准差。该方法假设数据是正态分布,

2022-09-28 22:03:26 3716

原创 PCA降维(主成分分析法)

如图,红色虚线是新的坐标轴,我们叫它PC1;但是我们将数据投影在新的坐标轴上,就是为了能用尽可能少的特征来表达整个数据的信息。(2)当:各个属性单位不同时,(比如,一个是kg,一个是米)这个时候,由于单位不同,协方差不表示相关程度,这时候,我们就要使用相关系数来进行描述。新坐标轴,旧坐标轴的讨论好麻烦,我们直接把数据去中心化(就是数据的均值在远点上)。(1)当:各个属性单位相同时(比如,都是kg,都是米),各个属性是可比较的。举个数据是二维的李子,我们将原始数据(蓝点)投影到新的最标轴上(黄蓝十字线)。

2022-09-28 21:33:13 4839

原创 什么是数据探索?

数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作。它是数据挖掘较为前期的部分。数据探索并不需要应用过多的模型算法,相反,它更偏重于定义数据的本质、描述数据的形态特征并解释数据的相关性。通过数据探索的结果,我们能够更好的开展后续的数据挖掘与数据建模工作。数据探索要弄清楚这些问题:样本数据长什么样子?有什么特点?数据之间有没有关系?样本数据是否能满足建模需求?箱形图是一种用作显示一组数据分散情况资料的统计图。在各种领域也经常被使用,常见于品质管理,快速识别异常值。

2022-08-24 23:24:28 4367

原创 注意力模型---Attention Model

Neural machine translation by jointly learning to align and translate”这篇论文提出了soft Attention Model,并将其应用到了机器翻译上面。所谓Soft意思是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。下面介绍一下理论文中提到的公式在原版的Seq2Seq和添加了attention机制的Seq2Seq相比,在公式上的差别就是在式子Si中的C有没有i。...

2022-08-09 14:55:29 5345 1

原创 Seq2Seq + Attention详解(基于NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE)

编码器简单来说就是把一句话转换成一个固定序列,这个固定序列是神经网络在输入句子中提取出的语义信息,将输入句子的所有必要信息压缩到固定长度向量中。在encoder中的RNN做的事情就是如下公式,其中下xt是指在t时刻输入的单词,ht-1是上一个单词输出的隐藏层变量。这里的背景向量c可以看作是该网络最终时刻的隐藏层变量ht。这个c就是将输入句子的所有必要信息压缩到固定长度向量,c是很重要的。在模型上看起来是这样的,有人可能问RNN输出的output去哪了了呢?在这里那些信息没有用到,所以没有。deco

2022-08-06 15:07:49 284

原创 《研究生科研能力训练与培养》

1

2022-08-04 18:43:30 1607

原创 《国际学术论文写作与发表》参考答案

o

2022-08-04 18:29:00 4423

原创 Seq2Seq 粗浅理解

目前Seq2Seq模型在机器翻译,语音识别,文本摘要,问答系统等领域取得了巨大的成功。Seq2Seq其实就是Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的序列输出出来。在经典的实现中,编码器和解码器各由一个循环神经网络(RNN,LSTM,GRU均可)构成,在Seq2Seq中,两个循环神经网络是共同训练的。......

2022-08-04 15:40:04 1026

原创 长短期记忆网络 LSTM

长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

2022-08-02 20:53:09 1688

原创 pytorch one-hot 小技巧

代码】pytorchone-hot小技巧。

2022-08-01 16:29:12 439

原创 循环神经网络(RNN)

它能挖掘数据中的以及。利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。

2022-07-29 23:20:08 1120

原创 CNN的粗浅理解

CNN最初是作者模仿人类视觉来创造出的模型。通过特殊的卷积来识别图片一部分的特征。比如,你区分鸟与猫就是看这些动物的特征,鸟的嘴与翅膀,猫的耳朵和爪子。通过这些特征来识别物体时十分有效的。......

2022-07-28 16:57:03 521

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除