- 博客(19)
- 收藏
- 关注
原创 创新实训周报2024.6.16
实体链接的目标是识别文本中的实体提及(mention)并将其链接到知识库中的相应实体。双编码器分别编码文本和实体,生成嵌入向量,然后通过向量检索来找到与文本嵌入向量最接近的实体嵌入向量,从而生成候选实体。在第二阶段,BLINK 使用交互式编码器模型对第一阶段生成的候选实体进行排序,选择最可能的实体。:使用内积或余弦相似度计算mention嵌入向量与实体嵌入向量之间的相似度,检索出前k个最相似的实体作为候选实体。:根据相似度得分对候选实体进行排序,选择得分最高的实体作为最终链接的实体。
2024-06-24 04:10:58
827
1
原创 创新实训周报2024.6.2
本周使用从百科和wiki上爬取的数据,以及使用模型提取的实体关系文件建立格式化数据,并导入neo4j数据库,提供后端进行查询调用。在构造数据时对图谱的数据进行了进一步的数据清洗和过滤,同时对某些节点进行了合并和删除等操作使图谱匹配更加精确。
2024-06-24 00:15:17
282
原创 创新实训项目进度(四)
Embedding模型通过在大规模语料库上进行训练,能够捕捉词汇和句子之间的语义关系,使得相似含义的文本在向量空间中距离更近。all-MiniLM-L6-v2 是一个双塔模型,包含 6 层 Transformer 网络,能够将句子或文本片段编码为固定大小的高维向量(嵌入向量)。文本嵌入后,考虑对嵌入的向量归入Faiss库 创建L2距离的Faiss索引,使用Faiss索引查找5个最近邻向量。该模型基于微软的 MiniLM 架构, 是一种轻量级、低延迟的语言模型,专门设计用于高效的文本嵌入生成。
2024-05-31 14:40:01
542
原创 创新实训项目进度(三)
前端开发方面相关的工作已经做了以下几个方面首先,使用streamlit前端框架实现了一个简易的对话界面,通过本地部署大语言模型对该功能进行了测试,能够正确的进行对话,后续将连接小组自己训练和微调的大语言模型。并将streamlit的对话界面嵌入到vue框架中。其次是搭建好了vue前端框架,写了几个具有更加灵活的使用方法且更加美观的vue组件,例如card.vue,SideBar.vue, SideBarLink.vue,BaseInput.vue。这几个组件可以使系统的展示结构更加鲜明,条理,美观。
2024-05-31 14:39:28
412
原创 创新实训项目进度(一)
将计算机网络第五版pdf中的文字提取到result.json注意如果提取的是中文数据,在保存到json时需要设置ensure_ascii为False原始的pdf格式提取后的json数据rapidocr_pdf会将提取的每页数据放到一个list中,其中每个元素都是一个list,形如初步提取的文档数据中存在大量的换行符、空格、特殊字符、公式、页码、等影响数据集构建和模型训练的噪声数据,因此需要额外步骤进行数据清洗。
2024-05-31 14:38:07
1791
原创 创新实训周报2024.5.19
该工作主要功能是处理一个包含文档标题和实体名称的 JSON 文件,生成一个包含节点(文档标题)和边(文档标题与实体名称关系)的知识图谱(KG)。生成的知识图谱按特定类别(如物理层、数据链路层等)进行分类,并将结果输出到一个 JSON 文件中。从输入的 JSON 文件中读取数据。创建节点和边,并构建一个图结构。按照预定义的类别对节点进行分类。将处理后的图结构数据存储到一个 JSON 文件中。
2024-05-31 14:32:04
365
原创 创新实训周报2024.5.12
"""""",我们还直接使用大模型+任务提示的方式进行了实体和关系提取,并对比效果你的任务是提取以下文本中所有的实体和他们之间的关系并按{"entity1": '', "relation": '', "entity2": ''}的格式输出。
2024-05-31 14:30:46
489
原创 创新实训周报2024.4.21
paddle社区提供了十分完整易用的同意信息抽取模型UIE,并且经过了优秀的预训练过程,在许多领域上都取得了良好的信息提取效果,我们选用这个模型可以大大降低模型训练的风险。而且该模型配有比较完善的训练和测试代码,可以将主要工作放在数据集的精炼方面,已取得更好的模型训练效果。该模型基于bert,部署所需的资源相对较少,运行速度快,十分适用于我们大数据量信息提取的问题背景,下周我的工作将针对于该模型的训练数据构建和模型训练与评估展开。
2024-05-31 14:28:54
605
原创 创新实训周报2024.4.14
本周我对之前分析的百度百科词条编写了爬虫进行数据爬取,获得了大量的词条和描述文档,并且同时获得了一些词条间的关系。
2024-05-31 14:28:24
1651
原创 创新实训周报2024.4.7
我们对pdf的文本进行了提取并使用多种手段进行数据清洗,最终得到了富含语义信息和概念知识的纯文本,并以句子为单位分割,去除了过长的句子以防止对后续的模型训练产生影响。最终我们通过统计文本中的特殊字符和连续数字、字符数量以评判清洗效果,达到了令人满意的程度。
2024-05-31 14:27:31
922
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人