自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 创新实训周报2024.6.16

实体链接的目标是识别文本中的实体提及(mention)并将其链接到知识库中的相应实体。双编码器分别编码文本和实体,生成嵌入向量,然后通过向量检索来找到与文本嵌入向量最接近的实体嵌入向量,从而生成候选实体。在第二阶段,BLINK 使用交互式编码器模型对第一阶段生成的候选实体进行排序,选择最可能的实体。:使用内积或余弦相似度计算mention嵌入向量与实体嵌入向量之间的相似度,检索出前k个最相似的实体作为候选实体。:根据相似度得分对候选实体进行排序,选择得分最高的实体作为最终链接的实体。

2024-06-24 04:10:58 827 1

原创 创新实训周报2024.6.9

本周端午假期,没有重大项目推进。创新实训周报2024.6.9。

2024-06-24 02:40:40 448

原创 创新实训周报2024.6.23

【代码】创新实训周报2024.6.23。

2024-06-24 01:22:08 181

原创 创新实训周报2024.6.2

本周使用从百科和wiki上爬取的数据,以及使用模型提取的实体关系文件建立格式化数据,并导入neo4j数据库,提供后端进行查询调用。在构造数据时对图谱的数据进行了进一步的数据清洗和过滤,同时对某些节点进行了合并和删除等操作使图谱匹配更加精确。

2024-06-24 00:15:17 282

原创 创新实训项目进度(四)

Embedding模型通过在大规模语料库上进行训练,能够捕捉词汇和句子之间的语义关系,使得相似含义的文本在向量空间中距离更近。all-MiniLM-L6-v2 是一个双塔模型,包含 6 层 Transformer 网络,能够将句子或文本片段编码为固定大小的高维向量(嵌入向量)。文本嵌入后,考虑对嵌入的向量归入Faiss库 创建L2距离的Faiss索引,使用Faiss索引查找5个最近邻向量。该模型基于微软的 MiniLM 架构, 是一种轻量级、低延迟的语言模型,专门设计用于高效的文本嵌入生成。

2024-05-31 14:40:01 542

原创 创新实训项目进度(三)

前端开发方面相关的工作已经做了以下几个方面首先,使用streamlit前端框架实现了一个简易的对话界面,通过本地部署大语言模型对该功能进行了测试,能够正确的进行对话,后续将连接小组自己训练和微调的大语言模型。并将streamlit的对话界面嵌入到vue框架中。其次是搭建好了vue前端框架,写了几个具有更加灵活的使用方法且更加美观的vue组件,例如card.vue,SideBar.vue, SideBarLink.vue,BaseInput.vue。这几个组件可以使系统的展示结构更加鲜明,条理,美观。

2024-05-31 14:39:28 412

原创 创新实训项目进度(二)

UIE使用daccano进行数据标注,并提供了将daccano数据转化为训练数据格式的代码。

2024-05-31 14:38:37 570

原创 创新实训项目进度(一)

将计算机网络第五版pdf中的文字提取到result.json注意如果提取的是中文数据,在保存到json时需要设置ensure_ascii为False原始的pdf格式提取后的json数据rapidocr_pdf会将提取的每页数据放到一个list中,其中每个元素都是一个list,形如初步提取的文档数据中存在大量的换行符、空格、特殊字符、公式、页码、等影响数据集构建和模型训练的噪声数据,因此需要额外步骤进行数据清洗。

2024-05-31 14:38:07 1791

原创 创新实训周报2024.5.26

通过以上方法,可以有效地利用知识图谱增强大模型的问答和检索能力,提升系统的智能性和实用性。

2024-05-31 14:32:39 390

原创 创新实训周报2024.5.19

该工作主要功能是处理一个包含文档标题和实体名称的 JSON 文件,生成一个包含节点(文档标题)和边(文档标题与实体名称关系)的知识图谱(KG)。生成的知识图谱按特定类别(如物理层、数据链路层等)进行分类,并将结果输出到一个 JSON 文件中。从输入的 JSON 文件中读取数据。创建节点和边,并构建一个图结构。按照预定义的类别对节点进行分类。将处理后的图结构数据存储到一个 JSON 文件中。

2024-05-31 14:32:04 365

原创 创新实训周报2024.5.12

"""""",我们还直接使用大模型+任务提示的方式进行了实体和关系提取,并对比效果你的任务是提取以下文本中所有的实体和他们之间的关系并按{"entity1": '', "relation": '', "entity2": ''}的格式输出。

2024-05-31 14:30:46 489

原创 创新实训周报2024.5.5

本周劳动节假期。

2024-05-31 14:30:06 450

原创 创新实训周报2024.4.28

UIE使用daccano进行数据标注,并提供了将daccano数据转化为训练数据格式的代码。

2024-05-31 14:29:31 1735

原创 创新实训周报2024.4.21

paddle社区提供了十分完整易用的同意信息抽取模型UIE,并且经过了优秀的预训练过程,在许多领域上都取得了良好的信息提取效果,我们选用这个模型可以大大降低模型训练的风险。而且该模型配有比较完善的训练和测试代码,可以将主要工作放在数据集的精炼方面,已取得更好的模型训练效果。该模型基于bert,部署所需的资源相对较少,运行速度快,十分适用于我们大数据量信息提取的问题背景,下周我的工作将针对于该模型的训练数据构建和模型训练与评估展开。

2024-05-31 14:28:54 605

原创 创新实训周报2024.4.14

本周我对之前分析的百度百科词条编写了爬虫进行数据爬取,获得了大量的词条和描述文档,并且同时获得了一些词条间的关系。

2024-05-31 14:28:24 1651

原创 创新实训周报2024.4.7

我们对pdf的文本进行了提取并使用多种手段进行数据清洗,最终得到了富含语义信息和概念知识的纯文本,并以句子为单位分割,去除了过长的句子以防止对后续的模型训练产生影响。最终我们通过统计文本中的特殊字符和连续数字、字符数量以评判清洗效果,达到了令人满意的程度。

2024-05-31 14:27:31 922

原创 项目实训周报2024.3.31

本项目主要需要实现知识图谱的构建和大模型对话功能,本周针对知识图谱构建进行数据集调研。

2024-05-31 14:26:48 404

原创 山东大学软件学院2024创新实训项目VCR个人博客

山东大学软件学院2024创新实训项目VCR个人博客。

2024-03-26 23:17:28 2226

原创 山东大学软件学院2024创新实训项目VCR项目博客

VCR。

2024-03-26 23:11:21 578

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除