系统设计
文章平均质量分 89
计算所陈老师
15年编程经验,中科院计算所工程师、架构师,主持或参与多项重大课题项目,主要技术领域为知识图谱、大数据,擅长大数据系统设计、Web前后端全栈开发
展开
-
GoIN面向教学实验场景的性能问题与优化
将本来面向情报分析场景设计的GOIN应用在教学实验场景中,遇到了严重的技术问题,进行了初步优化原创 2022-11-09 22:15:35 · 475 阅读 · 1 评论 -
近期某项目的问题总结与思考
一个教学实验场景的大数据分析系统项目,过程中遇到的项目遇到的很多问题。原创 2022-11-06 12:51:57 · 224 阅读 · 0 评论 -
基于规则的结构化数据知识抽取(三)
本文是基于规则的结构化数据知识抽取专题的第三篇,介绍知识抽取的交互设计知识图谱概念本身很容易理解,但是其建模设计、知识抽取、知识融合等过程较为复杂,如果能够通过WYSWYG(所见即所得)的方式指引用户,将为应用带来极大便利。与本文内容最相关的是规则配置界面,通过设计交互界面,方便用户进行规则配置,此功能又称为本体映射。传统的信息化系统界面往往采用表单方式,配置过程枯燥繁琐,不易发现错误。1.界面要素界面的核心元素包括:图谱模式画布:图谱模式就是要构建的图谱的Schema。用图谱形式直观.原创 2021-10-26 15:58:13 · 1031 阅读 · 0 评论 -
基于规则的结构化数据知识抽取(二)
为了方便阅读,本文分成三篇文章进行发布,本文介绍抽取程序设计根据前文设计的抽取规则,基于面向对象思想,采用Java语言设计开发,实现了较好的程序结构设计。主体程序设计UML设计如下:设计说明:RowData作为核心数据结构,表示表中的一行数据,其他类都需要与RowData交互。为了便于实际数据格式扩展,RowData设计为接口,其方法getValue用于根据字段名获取字段值,并提供两个实现:RowDataFlat和RowDataKV,RowDataFlat表示普通JSON对象格式原创 2021-10-17 01:06:13 · 1001 阅读 · 0 评论 -
基于规则的结构化数据知识抽取(一)
为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景、统一数据格式设计和规则设计;第二篇介绍抽取程序设计;第三篇介绍规则配置交互设计1. 背景知识抽取是从数据中提炼、萃取知识信息的过程。按照数据的结构化程度,分为结构化数据知识抽取、半结构化数据知识抽取和非结构化数据知识抽取。最常见的结构化数据是表格式数据,在传统的信息化系统中存在的大量关系数据库库表数据都是表格式数据,尽管其中一些字段可能是文本、二进制数据(即非结构化的),但总体来都认为是结构化数据。另外常见的Excel表单、Word/P原创 2021-10-12 19:26:35 · 3699 阅读 · 2 评论 -
一种基于JSON语法的JSON数据转换器
1. 项目背景最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何原创 2021-09-05 01:22:15 · 449 阅读 · 1 评论 -
一个简单可扩展的python数据处理框架
0. 背景知识图谱构建是指从原始数据到结构化图谱的数据抽取、转换的过程。由于原始数据来源众多、结构不统一、数据语义不一致,因此在整个知识图谱系统的建设过程中, 往往是最为复杂的环节,但又是必不可少的环节。GoIN系统是由中科院计算所天玑团队研发的知识图谱分析产品,核心数据处理流程就是知识抽取和图谱构建。在之前的产品设计中,这个过程被设计为交互式的,用户通过界面上传数据、配置规则,调用后台的抽取服务最终形成图谱,这样最大的问题是图谱规模受到限制。另外一个问题是抽取服务中很多业务逻辑是固化的,隐藏在原创 2021-09-03 00:32:34 · 767 阅读 · 0 评论