- 博客(13)
- 收藏
- 关注
原创 工作思考 2022.09.24
技术和业务是分割不开的,用户不会只为先进的技术买单,反过来,只有我们能够真正地理解业务、理解用户痛点并努力想办法为客户解决问题,用户才愿意为我们的产品和技术支付成本。
2022-10-12 18:39:35 100
原创 工作思考 2022.09.09
经济寒冬下,要更加注意学习和积累,一旦经济复苏机会来临,我们每个人、我们团队、我们公司才能是Ready状态。我们应该认真思考一下如何进行提升,提升我们个人的能力,提升我们的产品力。
2022-10-10 14:19:54 59
原创 基于规则的结构化数据知识抽取(三)
本文是基于规则的结构化数据知识抽取专题的第三篇,介绍知识抽取的交互设计知识图谱概念本身很容易理解,但是其建模设计、知识抽取、知识融合等过程较为复杂,如果能够通过WYSWYG(所见即所得)的方式指引用户,将为应用带来极大便利。与本文内容最相关的是规则配置界面,通过设计交互界面,方便用户进行规则配置,此功能又称为本体映射。传统的信息化系统界面往往采用表单方式,配置过程枯燥繁琐,不易发现错误。1.界面要素界面的核心元素包括:图谱模式画布:图谱模式就是要构建的图谱的Schema。用图谱形式直观.
2021-10-26 15:58:13 991
原创 基于规则的结构化数据知识抽取(二)
为了方便阅读,本文分成三篇文章进行发布,本文介绍抽取程序设计根据前文设计的抽取规则,基于面向对象思想,采用Java语言设计开发,实现了较好的程序结构设计。主体程序设计UML设计如下:设计说明:RowData作为核心数据结构,表示表中的一行数据,其他类都需要与RowData交互。为了便于实际数据格式扩展,RowData设计为接口,其方法getValue用于根据字段名获取字段值,并提供两个实现:RowDataFlat和RowDataKV,RowDataFlat表示普通JSON对象格式
2021-10-17 01:06:13 938
原创 基于规则的结构化数据知识抽取(一)
为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景、统一数据格式设计和规则设计;第二篇介绍抽取程序设计;第三篇介绍规则配置交互设计1. 背景知识抽取是从数据中提炼、萃取知识信息的过程。按照数据的结构化程度,分为结构化数据知识抽取、半结构化数据知识抽取和非结构化数据知识抽取。最常见的结构化数据是表格式数据,在传统的信息化系统中存在的大量关系数据库库表数据都是表格式数据,尽管其中一些字段可能是文本、二进制数据(即非结构化的),但总体来都认为是结构化数据。另外常见的Excel表单、Word/P
2021-10-12 19:26:35 3436 2
原创 Wikidata知识图谱介绍与数据处理
1. Wikidata简介Wikidata(维基数据)是一个自由开放的知识库,可以同时被人和机器阅读、编辑[1]。根据官网介绍,Wikidata作为一种结构化数据的集中存储,为其他维基媒体(Wikimedia)项目[2]提供支撑,包括Wikipedia(维基百科)、Wikivoyage(维基导游)、Wiktionary(维基字典)、Wikisource(维基文库)等。就像维基百科一样,Wikidata 支持自由协作编辑,支持多语言。与维基百科不同的是,Wikidata作为知识库,其内容都是结构化
2021-09-30 19:03:56 14731 10
原创 知识图谱的时空关联设计
1. 背景知识图谱可以应用在多个业务场景中,对各类对象进行表示、建模。作为一类重要的知识,空间信息在应用中经常需要用到,由此知识图谱与时空关联成为一种重要的应用形式,具备较好的可视化展示效果。一种典型应用场景是情报分析。对目标人物、目标组织和目标事件在时空上进行可视化呈现,查看目标人物的活动轨迹,分析事件发生的空间趋势,检索区域内的相关对象和事件,等等都是非常有用的功能。传统上,一般采用GIS系统进行针对性设计,在空间对象上关联具体对象信息。Palantir是比较早地将知识图谱与GIS技术进行结
2021-09-13 00:26:33 2966
原创 一种基于JSON语法的JSON数据转换器
1. 项目背景最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何
2021-09-05 01:22:15 416 1
原创 一个简单可扩展的python数据处理框架
0. 背景知识图谱构建是指从原始数据到结构化图谱的数据抽取、转换的过程。由于原始数据来源众多、结构不统一、数据语义不一致,因此在整个知识图谱系统的建设过程中, 往往是最为复杂的环节,但又是必不可少的环节。GoIN系统是由中科院计算所天玑团队研发的知识图谱分析产品,核心数据处理流程就是知识抽取和图谱构建。在之前的产品设计中,这个过程被设计为交互式的,用户通过界面上传数据、配置规则,调用后台的抽取服务最终形成图谱,这样最大的问题是图谱规模受到限制。另外一个问题是抽取服务中很多业务逻辑是固化的,隐藏在
2021-09-03 00:32:34 745
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人