自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 实现项目管理——合并gitee各分支

【代码】实现项目管理——合并gitee各分支。

2024-06-24 02:59:29 194

原创 基于大模型的医学文献摘要预处理与格式化输出——优化与展望

优化与展望

2024-06-24 02:45:04 391

原创 项目后端——调用API实现调用大模型功能并向前端返回输出

Hutool 是一个小而全的 Java 工具类库,通过封装 JDK 中现有的工具方法,提供了更加简洁、易用、功能强大的工具方法。Hutool 旨在通过提供一套简单、快速的 Java 工具类,帮助开发者提高开发效率,减少代码冗余。只需要注意将对应的content传入chat函数即可。二、服务使用接口设置。

2024-06-24 02:36:29 283

原创 大模型API云端部署

我们考虑到autodl只能映射到本地端口的话,对于其他同学的测试与调用工作非常不友好,因此我们通过策略将autodl端的模型部署到云端服务器上,以此来实现对公网IP的访问进而实现对API的调用。利用第一条提供的两个代码,即可开启对应云端服务器的端口提供公网IP访问服务端口的功能。利用cmd就可以实现,使用代码SSH root@(紧跟云端服务器IP地址)1.结合autodl自定义服务对于Linux的提示。2.本地通过SSH连接至服务器。3.服务器中使用对应代码。

2024-06-24 02:21:48 242

原创 大模型的api封装与本地端口调用(二)——fastapi实现

FastAPI 是一个现代、快速(高性能)的 Python Web 框架,用于构建基于标准 Python 类型提示的 API。基于模型的输入json样式,向本地localhost:6006发送POST请求,发现能够正常返回模型的输出结果!2. 设置设备参数与清理 GPU 内存函数。4.创建 FastAPI 应用。5.处理 POST 请求的端点。1. 引入库和设置设备参数。3.构建对话输入模版。

2024-06-24 02:10:21 1043

原创 大模型的api封装与本地端口调用(一)——openai实现

通过本地的SSH隧道,我们能够在本地的6006端口进行api的访问,通过了解,这个是利用llama-factory中提供的包来实现的,且其中的模型为llama-factory本地提供的模型,通过资料查询,没能够获得如何针对本地模型使用。但是对于该API的实现方式,很难和我们的java项目结合起来,因为java开发项目目前对openai的支持度很低,因此我们还需要考虑更好的api实现方式。在llama-factory的src文件夹中,我们发现了api.py文件,因此我们在终端直接执行api.py。

2024-06-24 02:00:43 638

原创 基于autodl与llama-factory微调llama3(五)

在autodl中安装的llama-factory中,为我们明确提供了将训练的checkpoint重新与大模型合并的python函数。其具体路径为:LLaMA-Factory/examples/merge_lora。修改完毕后,我们便可以利用以下代码,在终端中执行,便可以实现对应的模型合并工作。后续可以对该模型进行部署或是api的设计。

2024-06-24 01:44:31 255

原创 基于autodl与llama-factory微调llama3(四)

变量数据字段采用数组形式,数组中的每一项都是从文章中找到的,其中包含结果(结果)的描述和该结果的值,使得数组包含多个结果条目及其相关值。重要的是要注意,在variable_data数组中的项中,结果作为主键,下面必须是与结果相对应的参数。同时,如果variable_data条目中的结果不对应任何iv或cv类型参数,则认为该结果无效,由于缺乏数据,不应出现在variable_data中。通过整体观察,结果的对应关系较好,且能够准确识别数据值等内容,因此该模型的整体效果将作为我们预期的合并权重的模型。

2024-06-24 01:10:08 780

原创 基于autodl与llama-factory微调llama3(三)

基于该prompt,llama3模型的输出结果整体能够呈现出我们需要的格式,但是在诸如年龄提取、结果提取以及对于abs和percent的判断,很存在一些比较明显的偏差。本文主要侧重介绍新的prompt内容,在原来的prompt的中,我们是基于原.ann格式文件进行prompt的编写,其详情可以见该博客。1.对于文字提示:我们初步的设定为,“从给定的医学摘要中提取以下数据,并以指定的JSON格式输出:”无中生有:即大模型会突然出现任何地方都没有出现过的内容,自我生成崭新的不符合要求的内容。

2024-06-23 23:47:45 1499

原创 对基于事件的标注进行新的数据json化处理——构造微调数据集

表明了我们所需要的输入,由于我们的大模型只需要完成单对话的生成任务,因此我们的每一项微调数据只需要唯一一次的对应的输入与输出,输入内容为我们准备好的医学文献摘要,输出内容为对应的医学文献摘要的所进行标注与json格式处理后的json格式。"instruction"表明了该微调训练集的prompt,并且每一条数据集的prompt都应该唯一。具体内容与json化格式可以参考组内毛德霖同学的csdn博客。第二列"input"与第三列。

2024-06-23 23:14:13 400

原创 基于autodl与llama-factory微调llama3(二)

我们发现基于PICO训练出来的模型与我们想要的输出存在一定的误差,且数据的具体内容是我们不可预知的,同时还没有想好如何进行后端的具体处理。代码的总体目的是为了将 BRAT 格式的注释文件转换成一个机器学习任务格式的 JSON 数据集,方便后续的数据处理和模型训练。后续优化我们会更集中于对prompt的优化,同时会考虑数据集的构造是否可以改善,我们认为有很多需要改进的地方与思考的地方。函数负责解析注释文件。将文本和注释组合成指定格式的数据,并添加到数据集中。函数负责读取指定路径的文件内容,并返回文本内容。

2024-06-23 02:10:36 276

原创 基于autodl与llama-factory微调llama3(一)

基于本地数据集微调llama3

2024-06-23 01:53:19 395

原创 基于autodl与llama-factory部署llama3-8B开源大模型

部署llama3过程

2024-06-23 01:21:11 600

原创 基于百度千帆大模型平台采用自构造数据集初步微调ERNIE-Speed-8K模型

百度千帆大模型平台使用

2024-05-31 10:52:33 1947

原创 基于python的.txt与.ann数据对集合转json/jsonl数据集

文本文件与标注文件数据对集合转json格式文件代码

2024-05-31 09:38:19 1542

原创 基于brat对数据集.txt文件进行标注构造.ann文件

为爬取的数据集构造标注文件

2024-05-30 20:37:43 453

原创 医学文献摘要方面的数据集选取及构造

有关医学文献摘要的数据集的思考与确立

2024-05-30 14:09:57 634

原创 基于BeautifulSoup实现pubmed文献摘要的爬虫与无格式输出

pubmed的文献摘要爬虫代码

2024-05-30 13:17:04 772

PICO Corpus来源文献

该文献描述了PICO语料库数据集的研究过程与构造方式

2024-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除