- 博客(331)
- 收藏
- 关注
原创 tensorboard展示不同运行的曲线结果
来到tensorboard的执行目录logdir,可以看到下面有三个events文件,说明每个文件来自一次运行,有三次运行。有时候,曲线图会展示多条曲线,以至于我们想分辨哪条线来自哪次训练都做不到了。这时候看到不同的颜色了,且可以勾选只显示某次运行。忽略图中没有粉色曲线的问题,因为0923这次运行没有跑完一个epoch。设置smoothing-0后,可以清晰看见有两条线。(第三次运行没有跑完一个epoch,所以没显示折线)smoothing可以在页面找到设置按钮,呼出设置侧边栏。
2024-09-23 15:58:48 94
原创 l2p论文环境安装(2) 复刻源码低版本环境版
笔者的机器全是cuda11和cuda12的,幸好找到云上平台有个镜像能支持cuda10。从这个镜像网址可以看到所有jax发行版和支持的cuda:https://storage.googleapis.com/jax-releases/jax_cuda_releases.html。从这个镜像网址可以看到所有jax发行版和支持的cuda:https://storage.googleapis.com/jax-releases/jax_cuda_releases.html。
2024-09-22 02:39:10 124
原创 tensorflow-dataset 内网下载 指定目录
留意到,赋值的是你的代理服务器,且最好协议都使用http(即使TFDS_HTTPS_PROXY也要使用http协议连服务器)。解决办法是设置环境变量,指向你的代理服务器。
2024-09-19 20:47:37 184
原创 tensorflow-dataset All attempts to get a Google authentication bearer token failed
【代码】All attempts to get a Google authentication bearer token failed。
2024-09-19 17:08:25 421
转载 AttributeError: module ‘flax‘ has no attribute ‘optim‘
参考:https://blog.csdn.net/qq_47885658/article/details/131936700。
2024-09-19 11:18:57 17
原创 AttributeError: module ‘tensorflow._api.v2.compat.v2.__internal__‘ has no attribute ‘register_load_c
解决方法是安装低一些版本的tensorflow,安装完tf后,可以看到keras也同步安装好了。
2024-09-19 09:28:27 219
原创 jax安装踩坑(2) ModuleNotFoundError: No module named ‘keras.src.engine‘
查看 https://stackoverflow.com/questions/77180527/modulenotfounderror-no-module-named-keras-src。
2024-09-18 09:32:03 121
原创 jax安装踩坑(1) ImportError: cannot import name ‘linear_util‘ from ‘jax‘
评论区说,要么降级jax,要么升级flax。
2024-09-18 09:25:07 169
原创 压缩与解压命令 并行解压并显示进度
参考 https://developer.aliyun.com/article/1489661,解压.tar.gz的多分片文件时,使用并行解压,且显示进度。
2024-09-02 16:45:42 83
原创 pip install fastapi报错,AttributeError: module ‘typing‘ has no attribute ‘_ClassVar‘(包解决的)
【代码】pip install fastapi报错,AttributeError: module ‘typing‘ has no attribute ‘_ClassVar‘
2024-08-15 19:58:23 222
原创 impor wandb报错 TypeError: Descriptors cannot be created directly
参考https://stackoverflow.com/questions/72441758/typeerror-descriptors-cannot-not-be-created-directly,
2024-07-23 10:16:09 160
转载 文本的困惑度
https://blog.csdn.net/qq_52852138/article/details/132023596 如何计算文本的困惑度perplexity(ppl)
2024-05-30 11:32:42 73
原创 modelbox验证expand和condition共用后,是否顺序保持
然后在response单元输出每一对数据,发现顺序都不变。且在处理时,输出会卡住,说明input1端口会等待直到奇数和偶数凑齐。如图,在expand之后接了个condition,上下两个流中每一对数据buffer的顺序性是否还会保持?笔者修改让condition在遇到奇数和偶数时的走向不同。
2024-05-23 19:11:37 166
原创 Joplin笔记软件配置同步机制 WebDav
笔者的Joplin无法连上dropbox,且onedrive被冻结了,解冻要30天。所以只能考虑用其他方法配置同步机制,最后笔者用WebDav配置好了。
2024-05-19 01:23:16 523
原创 modelbox流单元的batch size始终为1 且batch_size设置无效
是stream单元的回调函数,说明该单元默认的功能是stream单元,所以要检查流单元的toml里,并显式设置。
2024-04-20 11:21:18 235
原创 ray报错 RuntimeError: No CUDA GPUs are available
看是不是ray_actor_options设置错了,笔者之前写成了下面这样,漏了num_gpus字段,所以就找不到gpu了。
2024-04-09 14:34:05 307
原创 onnx导出模型与推理
不必要的参数:export_params=True, opset_version=10, do_constant_folding=True。
2024-03-27 09:27:37 186
原创 modelbox流程图报错 can not match at multi ports when the match node is condition node
这个原因是,本来我想设置一个condition单元,通常condition单元的一个port是能连接多个port的。但因为拷贝文件太匆忙,有两个流单元下的toml文件名不小心重叠了,他们就同时生效了,而后者toml中设置的expand=true覆盖了前者的condition=true,然后modelbox认为expand单元不能连接多个port就报错了。
2024-03-27 09:09:58 248
原创 onnx 推理报错 Process finished with exit code 139
【代码】onnx 推理报错 Process finished with exit code 139。
2024-03-19 10:48:18 350
转载 huggingface 本地模型加载报错 Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mo
【代码】huggingface 本地模型加载报错 Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mo。
2024-01-29 09:51:44 3020 2
原创 jmeter body data内容过多时卡住 (__FileToString节约你的生命)
jmeter有个bug,当body data栏里的内容太多时(比如包含了图片base64字符串),应用会卡住,处于未响应状态下加载很久,只能关闭。像下面一样填写图片base64文件的路径,以及图片编码utf-8即可。使用这个函数可以利用jemeter自带的。
2024-01-23 14:35:42 1348
原创 如何调试对比昇腾npu与英伟达GPU的精度差异 (一) 在线推理,基于向量差异的百分比
假设希望对比某个模型,比如BLIP的图片编码器或文字编码器,在英伟达GPU和昇腾上的推理结果是否一样,可以怎么办呢?
2024-01-17 19:57:48 229
原创 postman能调用fastapi,但jmeter调用报错 422 unprocessable entity
JMeter模拟请求发送,并带上自定义Header,参数,Cookie_jmeter header参数化-CSDN博客。给jemeter的压测请求加上header,Content-Type: application/json。
2024-01-12 15:36:58 576
原创 昇腾上执行模型推理报错 EZ9999 Cannot parse json for config file
可能是没安装kernels包,安装它,再执行。
2024-01-05 14:17:00 1147 2
原创 docker login失败 x509: certificate relies on legacy common name field use sans instead
解决办法是在daemon.json把仓库域名加入。
2024-01-04 14:31:24 1508
原创 昇腾容器内执行npu-smi失败 DrvMngGetConsoleLogLevel failed. (g_conLogLevel=3)
看下是不是npu被别人的容器占了,一般被占了的话会有这种报错。
2024-01-04 10:35:25 3031
原创 modelbox 无法读取buffer数据 不符合函数签名
的函数签名只支持buffer类型,str不是buffer类型,但bytes是buffer类型。这可能是因为在上个单元没成功传入数据。比如,下面的调用是错误的,因为。报错原文忘记了,大意是传入的参数不符合。
2023-12-22 10:11:40 370
原创 云上查看容器日志
有时候在云上希望查看容器日志,但web UI界面上看不到日志,怎么办?然后用docker logs命令打印指定容器的日志,就能用命令行的方式打印容器了。该做法适用于各种云上平台,包括华为云、腾讯云等。首先用ssh登陆宿主机。
2023-12-21 16:25:22 514
原创 pip install报错,缺少importlib_metadata-6.7.0
安装到网上找importlib_metadata-6.7.0的whl文件,离线安装,我是在。,将importlib_metadata相关文件夹全删了再重装whl,解决了。结果报错不变,然后参考了。
2023-12-14 19:48:00 441
原创 modelbox线程爆满宕机bug
modelbox可以进行模型推理,但压测一段时间后,modelbox宕机,执行发现线程数爆满,达到了3万个,说明在请求期间线程不断被创建,但没有被回收。
2023-12-12 17:30:34 495
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人