自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 GoIN面向教学实验场景的性能问题与优化

将本来面向情报分析场景设计的GOIN应用在教学实验场景中,遇到了严重的技术问题,进行了初步优化

2022-11-09 22:15:35 462 1

原创 近期某项目的问题总结与思考

一个教学实验场景的大数据分析系统项目,过程中遇到的项目遇到的很多问题。

2022-11-06 12:51:57 209

原创 工作思考 2022.10.09

真实业务场景、海量真实数据,正适合磨练系统技术能力。有用的技术才是好的技术,掌握了有用技术的人,才是真正的人才。

2022-10-21 12:15:24 196

原创 工作思考 2022.09.24

技术和业务是分割不开的,用户不会只为先进的技术买单,反过来,只有我们能够真正地理解业务、理解用户痛点并努力想办法为客户解决问题,用户才愿意为我们的产品和技术支付成本。

2022-10-12 18:39:35 100

原创 工作思考 2022.09.09

经济寒冬下,要更加注意学习和积累,一旦经济复苏机会来临,我们每个人、我们团队、我们公司才能是Ready状态。我们应该认真思考一下如何进行提升,提升我们个人的能力,提升我们的产品力。

2022-10-10 14:19:54 59

原创 关于魔镜系统的故事

6年前设计开发的一套系统,近三年没有维护,由于数据量大现在一个搜索能卡10秒钟,但用户至今还在用,为什么?

2022-09-30 16:32:29 386

原创 基于规则的结构化数据知识抽取(三)

本文是基于规则的结构化数据知识抽取专题的第三篇,介绍知识抽取的交互设计知识图谱概念本身很容易理解,但是其建模设计、知识抽取、知识融合等过程较为复杂,如果能够通过WYSWYG(所见即所得)的方式指引用户,将为应用带来极大便利。与本文内容最相关的是规则配置界面,通过设计交互界面,方便用户进行规则配置,此功能又称为本体映射。传统的信息化系统界面往往采用表单方式,配置过程枯燥繁琐,不易发现错误。1.界面要素界面的核心元素包括:图谱模式画布:图谱模式就是要构建的图谱的Schema。用图谱形式直观.

2021-10-26 15:58:13 991

原创 基于规则的结构化数据知识抽取(二)

为了方便阅读,本文分成三篇文章进行发布,本文介绍抽取程序设计根据前文设计的抽取规则,基于面向对象思想,采用Java语言设计开发,实现了较好的程序结构设计。主体程序设计UML设计如下:设计说明:RowData作为核心数据结构,表示表中的一行数据,其他类都需要与RowData交互。为了便于实际数据格式扩展,RowData设计为接口,其方法getValue用于根据字段名获取字段值,并提供两个实现:RowDataFlat和RowDataKV,RowDataFlat表示普通JSON对象格式

2021-10-17 01:06:13 938

原创 基于规则的结构化数据知识抽取(一)

为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景、统一数据格式设计和规则设计;第二篇介绍抽取程序设计;第三篇介绍规则配置交互设计1. 背景知识抽取是从数据中提炼、萃取知识信息的过程。按照数据的结构化程度,分为结构化数据知识抽取、半结构化数据知识抽取和非结构化数据知识抽取。最常见的结构化数据是表格式数据,在传统的信息化系统中存在的大量关系数据库库表数据都是表格式数据,尽管其中一些字段可能是文本、二进制数据(即非结构化的),但总体来都认为是结构化数据。另外常见的Excel表单、Word/P

2021-10-12 19:26:35 3436 2

原创 Wikidata知识图谱介绍与数据处理

1. Wikidata简介Wikidata(维基数据)是一个自由开放的知识库,可以同时被人和机器阅读、编辑[1]。根据官网介绍,Wikidata作为一种结构化数据的集中存储,为其他维基媒体(Wikimedia)项目[2]提供支撑,包括Wikipedia(维基百科)、Wikivoyage(维基导游)、Wiktionary(维基字典)、Wikisource(维基文库)等。就像维基百科一样,Wikidata 支持自由协作编辑,支持多语言。与维基百科不同的是,Wikidata作为知识库,其内容都是结构化

2021-09-30 19:03:56 14731 10

原创 知识图谱的时空关联设计

1. 背景知识图谱可以应用在多个业务场景中,对各类对象进行表示、建模。作为一类重要的知识,空间信息在应用中经常需要用到,由此知识图谱与时空关联成为一种重要的应用形式,具备较好的可视化展示效果。一种典型应用场景是情报分析。对目标人物、目标组织和目标事件在时空上进行可视化呈现,查看目标人物的活动轨迹,分析事件发生的空间趋势,检索区域内的相关对象和事件,等等都是非常有用的功能。传统上,一般采用GIS系统进行针对性设计,在空间对象上关联具体对象信息。Palantir是比较早地将知识图谱与GIS技术进行结

2021-09-13 00:26:33 2966

原创 一种基于JSON语法的JSON数据转换器

1. 项目背景最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何

2021-09-05 01:22:15 416 1

原创 一个简单可扩展的python数据处理框架

0. 背景知识图谱构建是指从原始数据到结构化图谱的数据抽取、转换的过程。由于原始数据来源众多、结构不统一、数据语义不一致,因此在整个知识图谱系统的建设过程中, 往往是最为复杂的环节,但又是必不可少的环节。GoIN系统是由中科院计算所天玑团队研发的知识图谱分析产品,核心数据处理流程就是知识抽取和图谱构建。在之前的产品设计中,这个过程被设计为交互式的,用户通过界面上传数据、配置规则,调用后台的抽取服务最终形成图谱,这样最大的问题是图谱规模受到限制。另外一个问题是抽取服务中很多业务逻辑是固化的,隐藏在

2021-09-03 00:32:34 745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除