自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 大模型训练踩坑记录

查了一些资料,在stackoverflow上看到有人训练别的模型说还是batchsize设置的大了,可以减小一下试试。按道理来说应该当第一张卡不足,使用第二张卡上,但目前不知道原因为什么没弄好,有经验的朋友可以不吝赐教。【2】个人使用设备双卡T4,每个卡16G,2张卡32G,qlora方法微调chatglm3-6b。这样时间能减少一半。

2024-01-10 15:36:49 1094 1

原创 tf中线程与graph读取的关系

def import_graph_fun(pb_model_name): output_graph_def = tf.GraphDef() with open(pb_model_name, "rb") as f: output_graph_def.ParseFromString(f.read()) tf.import_graph_def(output_graph_def, name="") sess = tf.Session() # othe.

2020-06-22 17:18:16 409

原创 error: invalid compressed data to inflate file #14: bad zipfile offset (local header sig):

原因是:zip文件太大,不能直接使用unzip name.zip的命令进行解压;解决方案:1. 看到CSDN上一篇博客说使用jar xvf full.zip这个命令进行解压,实测可以;2. stateoverflow上有一种方案是:zip -F file.zip --out file-large.zip然后再使用命令unzip file-large.zip就可以了,不过效果未知,都可以试试。...

2020-06-08 16:10:25 6994

原创 tf.estimator.Estimator的使用

1

2020-04-21 17:10:02 2883

原创 tensorflow 数据读取

TensorFlow常见的数据读取方式分为3类:1. placeholder+feeding2.QueueRunner3. dataset其中第三种方式是目前的主流,但前2种方法,尤其是第二种方法我认为了解一下对于理解他人的代码是有帮助的:1. placeholder+feeding简单地说就是用Python程序处理好相关的数据,然后将整理好的数据通过placeho...

2020-04-21 15:43:42 441

原创 tf.logging用法

用来记录模型训练过程的一些参数。常用的几项:tf.logging.set_verbosity(tf.logging.INFO)设计日志级别.tf.logging.info(msg, *args, **kwargs)记录INFO级别的日志. args 是配合msg中的占位符用的. 比如 info("I have been in love with %s for %d years."...

2020-04-01 19:42:31 4771

原创 tf.flags用法

TF中使用flags来定义解析命令行参数,用法类似于Python中的argparse。尤其在我们编写shell脚本训练代码的时候比较方便,比如某shell脚本:python run_classifier.py \ --task_name=$TASK_NAME \ --do_train=true \ --do_eval=true \ --data_dir=$GLUE_DATA_...

2020-04-01 19:12:53 908

原创 rank axis shape等的含义

tensor的rank的含义就是有几个轴(轴就是axis),比如a = tf.Variable(tf.constant(1.5, dtype=tf.float32, shape=[11, 2, 3, 4, 5, 6, 17]), name='a'),那么a有7个轴,rank=7.数学中矩阵的rank与这里tensor的rank略有区别,数学中矩阵的rank是说:矩阵中所有行向量中极大线性代无关...

2020-04-01 16:22:23 530

原创 【读论文】Character-Level Language Modeling with Deeper Self-Attention(Vanilla Transformer)

当初读这篇论文的目的只有1个:在读Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context这篇文章时,关于infer阶段,作者为啥说Vanilla Transformer每预测一次就要重新计算,而且xl这篇文章的主要比较对象就是Vanilla Transformer,所以才认为读一下这篇Vanilla Trans...

2020-03-24 15:24:30 3244

原创 常见的Tensor操作——tf.reshape; tf.pad; tf.slice; tf.transpose; tf.tile; tf.expand_dims; tf.squeeze

对于Tensor的常见操作无非就是变化一下shape,做个转置,padding一下,取其中固定的维度的信息,增加个维度,减少各维度之类的,具体的分为7个接口,分别如下:1. tf.reshape在向量运算时,难免向量的形状跟要求不一致,这个时候需要reshape操作改变向量的形状,该操作只修改各个维度的大小,不修改向量中数据的顺序,比如一个向量a = [1, 2, 3, 4],它的shap...

2020-03-14 21:37:31 677

原创 tf.shape和tf.get_shape的区别

从名字来看,这2个接口都是可以获取tensor的shape的,但有明显的区别,具体为:1.tf.shape返回的是tensor,而tf.get_shape返回的是一个元组,所以前者想要获取具体的结果需要sess.run才行;2. 对tf.placeholder占位符来说,如果shape设置的其中某一个是None,那么对于tf.shape,sess.run会报错。a = tf.Var...

2020-03-10 22:24:19 1551

原创 tf.name_scope,tf.variable_scope,tf.Variable和tf.get_variable用法

在TensorFlow中,声明变量可以使用接口tf.Variable和tf.get_variable,而tf.name_scope,tf.variable_scope提供变量空间管理功能。下面举例说明:1.tf.name_scope,tf.variable_scope这2个接口的功能都是提供变量空间空间管理功能,不同点在于tf.name_scope一般用于使网络关系在tensorboar...

2020-03-10 21:09:14 246

原创 python 错误总结

Python错误总结

2017-12-13 10:15:27 137

数值分析大作业

数值分析大作业,第三次,C++代码,包括完整的分析

2013-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除