![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识图谱
文章平均质量分 82
知识图谱相关技术介绍
jieshenai
这个作者很懒,什么都没留下…
展开
-
neo4j 的插入速度为什么越来越慢,可能是使用了过多图谱查询操作
随着图数据库中的节点数量越来越多,就导致查询时间过长,从而形成了随着程序运行插入节点速度变慢的现象。有80万条数据需要插入到neo4j图数据中,在前期处理速度200条每秒,随着程序的运行处理速度越来越慢,200 -> 100 -> 50 -> 30,速度一直降低到每秒处理30条数据;如果咱们只是想表示某个节点他有哪些关系,那么节点不唯一也可以考虑,那么便不再理会图谱中是否已有该节点,直接创建该节点,然后建立关系即可。通常创建实体时,先在图谱中查询是否有该节点,如果图谱中有则不创建,使用查询得到的节点;原创 2024-05-01 13:01:37 · 1097 阅读 · 0 评论 -
llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战
利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;原创 2024-04-12 23:42:04 · 2009 阅读 · 8 评论 -
doccano 实体识别标注的数据转为 大模型微调的数据集格式
展示 Doccano 实体识别导出的数据集格式;展示 大模型实体识别微调的数据集格式;提供 从Doccano 实体 转换到大模型微调数据集格式的代码;原创 2024-04-18 13:56:25 · 615 阅读 · 0 评论 -
把标注数据导入到知识图谱
使用 Doccano 标注了一些数据,包括命名实体识别、关系和文本分类的标注的数据;首先将标注数据导入到Doccano,查看一下标注结果;使用py2neopython工具包,将标注数据导入到neo4j图数据库;原创 2024-04-03 21:13:30 · 524 阅读 · 0 评论 -
Doccano标注数据转化为便捷实用的数据格式
Doccano 标注导出格式的数据,不方便使用,无论是做信息抽取训练还是导入到图数据库中等,均无法直接使用;故本文将其转为 DeepKE 大模型训练数据格式,从而实现方便用户使用的目的。虽然读者不一定使用DeepKE 训练大模型做信息抽取,但是转换后的数据格式,也能简化读者的数据转换工作。本文将Doccano标注导出的格式,转化为下述格式原创 2024-04-02 14:29:41 · 549 阅读 · 0 评论 -
txt、pdf等文件转为一行一行的doccano数据集输入格式
把pdf转成txt文件,在txt文件中,根据句号把文本分隔成一行一行文本,从而实现把pdf转换成doccano标注格式。pdf转txt;txt转成doccano的TextLine的文件格式;原创 2024-03-21 22:58:27 · 1189 阅读 · 0 评论 -
命名实体识别,根据实体计算准确率、召回率和F1
使用模型训练完命名实体识别的模型后,发现不知道怎么评估实体识别的准确率、召回率和F1。于是便自己实现了代码,同时提供了完整可运行的项目代码。原创 2024-03-10 11:53:25 · 884 阅读 · 0 评论 -
转化BIO命名实体识别(NER)数据格式
BIO形式数据,通常使用分类算法进行训练。然而对于一些生成式的模型,无法使用上述数据集。故本文实现转换BIO数据集原创 2024-03-09 20:44:06 · 840 阅读 · 3 评论 -
Doccano的标注结果转换为BIO格式
实现了Doccano导出格式到BIO命名实体识别格式的转换。原创 2024-03-01 16:20:38 · 698 阅读 · 3 评论 -
Doccano 修复 spacy.gold 的bug
如何将Doccano标注的文本转换成NER模型,修复 No module named 'spacy.gold' 报错原创 2024-03-01 14:07:47 · 1182 阅读 · 0 评论 -
neo4j 图数据库 py2neo 操作 示例代码
利用py2neo包,实现把excel表里面的数据,插入到neo4j 图数据库中;* 创建新(节点或关系)到neo4j图数据库中;* 能够获取neo4j 中已有的(节点或关系),不再创建新(节点或关系);原创 2024-01-14 00:34:13 · 875 阅读 · 1 评论