- 博客(70)
- 收藏
- 关注
原创 安装paddle_ocr踩坑(使用PP-OCRv5_server_rec)
3、已经出错,导入paddlepaddle时出现什么os(libpython3.12.so.1.0)找不到的问题,然后查找发现要升级系统(我的是python版本不对应)5、下载模型文件,运行以下程序,model_dir用于指定已经下载的本地文件。4、安装过程中会出现有一些库由于有些库没安装,导致安装失败,整合了一下如下。,于是升级python版本到3.12,这个错就没有了。3、安装最新版本paddle_ocr(一定要最新,按照魔塔的介绍来)1、首先装python版本,创建运行环境,Linux内运行。
2025-11-12 11:32:52
898
原创 LlaMA_Factory实战微调Qwen-LLM大模型
在data文件夹-dataset_info.json中添加制作好的数据集,文本训练添加参考格式如下。显示训练完时间未9小时左右。其他默认即可,开始训练。总数据量:6448条。
2025-11-03 16:27:48
329
原创 tesseract.exe is not installed or it‘s not in your PATH. See README file for more information.亲测
2、下载完成后进行安装,记住安装路径!这个很重要,这个也就是很多博主给的替换链接,但是也不说这个东西怎么来的,下载链接也没有!不是哥们,找了一圈,几乎都是直接给出一个路径,其他的什么也没有,就说解决,真的让人头大!3、在py文件的开头,添加环境变量路径,且需要注意路径的书写规范如下。1、首先从官方推荐的网址下载安装包。一、Windows 系统。
2025-08-19 16:07:37
381
原创 LlaMA_Factory实战微调VL大模型
启动训练后使用显存大小:50924MiB,143条数据,15Epoch所用时间为:40min。首先找到data文件夹下方的mllm_demo.json,确认微调VL模型时的数据格式模板,然后按照模板,制作对应的指令微调数据集。3、进入dataset_info.json,添加数据集,修改文件夹名称和对应标注json文件名即可。打开identity.json文件,修改模型初步认知,确认微调后模型的名称和开发者。2、确认微调模型认知。
2025-08-06 09:39:10
762
原创 llama factory新手初步运行完整版
4、下载llama factory代码,并cd到文件夹内部,然后运行官网给的pip命令,同样可以添加镜像源,不然会有包下载失败,导致一直重新装。2、激活后可检查内部包是否纯净,要确保环境内包较纯净,不然后续安装对应包会出现一系列水土不服的问题,导致安装包冲突而失败。(1)、初始环境一定要较为纯净,不然可能会导致库之间的冲突而安装失败。(2)、安装命令皆可添加镜像源,防止过程中下载失败导致一直重新安装库。3、首先安装bitsandbytes库,可添加镜像源,命令如下。安装完同样会出现如下提示。
2025-07-22 08:49:53
387
原创 解决VsCode不显示环境名称
按下组合键Windows + R以打开运行窗口。在VSCODE终端中激活运行的conda环境,但是只显示PS,并不显示环境名称。从普通模式转至管理员模式,输入以下PowerShell命令然后按下回车键。方式1:在Cortana搜索栏中打开带管理员权限的PowerShell。Windows PowerShell会以当前用户的权限去执行。在Windows 10的任务栏搜索框输入powershell。方式2:使用运行窗口打开带管理员权限的PowerShell。解决方法:以管理员权限打开PowerShell。
2024-09-26 09:17:58
2571
1
原创 加载Llama模型RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘
在推理llama大模型时,原始代码如下,在加载model时,配置torch_dtype = ‘auto’
2024-07-10 15:41:38
1918
原创 GET、POST介绍
而对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200(返回数据)。安全性 与 POST 相比,GET 的安全性较差,因为所发送的数据是 URL 的一部分。不可将POST链接直接在浏览器地址栏中进行请求,需要编写相应的请求代码!后退按钮/刷新 无害 数据会被重新提交(浏览器应该告知用户数据会被重新提交)。查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的。查询字符串(名称/值对)是在 GET 请求的 URL 中发送的。
2024-06-27 16:17:16
663
原创 BaiChuan13B-GPTQ量化详解
1、按照网上搜索的一些代码,如使用auto_gptq原生库进行训练后量化,可能会正常量化,但是在线推理时会出现如找不到bin文件或者tf文件,即模型权重文件,所以和网上大部分代码不同的地方在于,需要提前保存对应模型的权重文件,如果是BaiChuan13B,那么在进行模型量化前,对其进行保存。按照上述步骤,此时模型量化文件保存成功,接下来就是模型在线推理。
2024-04-18 10:16:06
1842
原创 遍历字典修改值时RuntimeError: dictionary changed size during iteration
报错:RuntimeError: dictionary changed size during iteration。原因:字典不支持在遍历时进行修改值,将其改为list格式。需求:遍历data字典,将值为‘无’的键值对进行删除。
2024-03-08 11:03:20
394
原创 Runtime Error while Saving a PyTorch bin Model: “File /** Cannot Be Opened“
解决方法:需要保存的文件名字为"pytorch_model.bin"
2024-02-20 09:49:53
1434
原创 ValueError: Tokenizer class BaichuanTokenizer does not exist or is not currently imported已解决
报错:ValueError: Tokenizer class BaichuanTokenizer does not exist or is not currently imported。环境:使用 AutoTokenizer 加载量化后的百川模型。添加 trust_remote_code=True。可以在量化时对 Tokenizer 进行保存。
2024-01-30 16:04:07
998
原创 Request请求OpenCV图片接口
1、得接口为:http://xxx.xxx.xxx.xx:xxxx/det/predict# 测试AutoOD接口import requestsimport base64# 读取图片文件,your_image_file.jpg为你图片路径,即传入的参数with open('your_image_file.jpg', 'rb') as f: image_data = f.read() encoded_string = base64.b64encode(image_data).dec
2024-01-11 10:03:31
509
原创 python对json读取和写入汇总
2、由于json的特殊性,写入需要格式规范,假设现在存在一个json格式数据为。此时data_json即为读取到的数据,可对其进行操作。需要将其写入到文件data.json中,代码如下。1、读取json数据。
2023-09-06 16:09:16
458
原创 查看显卡显存
gpustat -cpui用于查看当前GPU使用情况。4096为显存总大小,1228为目前使用的显存大小。2、或者在编辑器中直接安装gpustat包进行查看。
2023-09-05 17:10:41
2033
原创 Python对XLSX文件进行操作
4、整合代码为:提取某一个xlsx中的一列(提取后默认list格式),后写入到新的xlsx文件中。2、得到data为全部数据,若是需要提取指定列如下。3、将提取的数据写入新的xlsx中。
2023-08-23 21:39:56
478
原创 数据预处理二(同一文件夹下多文件路径加载入list中)
1、如data文件夹下,有1-10个txt文件,需要循环遍历并对文件进行操作,不能够手动去修改路径,这时候,需要将所有路径添加到list中,进行遍历就可以。
2023-07-10 17:53:07
211
原创 Python 读取json文件
2、使用open() 打开,按照行去读取,即不针对json格式去做特定读取,且同时满足read(), readline(), readlines()操作。Python 的 strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。4、对读取的文本进行去除前尾空格操作 .strip()3、针对json格式做特定读取。
2023-07-10 17:06:28
308
原创 Python读取 .txt文件
(3)readlines() 一次性读取文本的所有内容,返回一个列表,列表每个元素代表一行。这种方法读取的文本内容,每行文本末尾都会带一个’\n’换行符。(1)read() 是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在内存中。4、针对.read(),readline()、readlines()操作。(2)readline() 每次读取一行信息,结果是一个list。2、打开操作 open() 中’r’ ‘w’ ‘a’ 的不同作用。弊:文件过大的时候,占用内存会过大。
2023-07-10 16:42:04
2730
原创 python循环多json文件并按要求写入不同json文件中
5、需要注意的地方,一般写入操作是将open()中的模式改为’w’,但是循环写入会导致最终文件中只留下最后一条数据,因为’w’在每次写入时,会清空文件中的内容,故将’w’更改为’a’,即在不清空的基础上,新增内容。场景:当前有17个被分割的json文件,现在需要将这17个文件全部按要求并入训练集和测试集文件中,条件为:如将遍历到的前20000条数据加载进训练集,其余的并入测试集。6、但是好像最后需要手动添加符号更改格式,因为加入的是纯 dict 数据,需要手动添加 ‘[]’ 和 ‘,’。
2023-07-08 11:52:41
1046
原创 对json数据处理:str 转 list,for 遍历 str 时结果不如意
2、但是new_all_data_list原始数据如下,是一个list中包含字典数据,但是如果是 str 类型,当使用第一层for去遍历时,是拿不到字典数据,而是一个一个字符。1、原始数据new_all_data_list,输出其数据类型。在去使用for循环遍历即可。
2023-07-07 15:01:00
156
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅