提出一种数据驱动型科技情报研究新模式的概念框架,解决传统情报研究模式的问题和局限性。这一概念框架主要利用大数据管理和分析方法改革现有的耗时耗力、依赖手工收集和分析信息的方式,能够智能获取、存储、检索、组织、处理、分析与可视化呈现海量异构数据,利用新技术建立不同数据集间的数据关联,集成和综合分析结构化和非结构化数据,从而发现有价值的知识。
整体架构
数据驱动型科技情报研究新模式的设计应考虑在大数据环境下协同工作的功能性、灵活性和可用性,设计能够收集大批量的政策、科技和产业等类型数据,包括战略规划、政策、路线图、经费预算、项目、机构、人员、研究设施、科技文献、专利、分析报告、新闻动态、统计数据等;提供特定研究领域发展趋势的精准分析和可视化呈现;具有高度灵活性可定制的资源描述、数据模型和算法,开展信息发现、遴选、组织和分析。该模式通过采用大数据架构和工具,设计和建造从数据获取到数据存储、处理、检索和分析的全套解决方案,使情报研究人员能够快速获取所需信息,并灵活调用各种分析方法开展深度情报分析,整体架构如图2所示。
图 2 数据驱动型科技情报研究新模式整体架构
科技态势大数据结构体系
围绕科技创新决策需求研究构建科技态势大数据结构体系,支撑科研态势分析感知环境建设,重点研究内容包括2个方面。
1)确定科技态势基础源数据构成。通过对各种异构的权威网站和数据库资源梳理分析,以及开展文献资料调研和专家咨询等方式,在政策、经费、项目、机构、人才、装备、论文、专利、成果、奖项、评价指标、产业经济、资源生态、社会环境等方面发现、遴选和评价不同来源、不同类型的高质量科技态势基础源数据。
2)从资源投入数据和创新产出数据2个维度来构建科技态势大数据体系。其中,资源投入数据维度包括:科技创新战略环境、R&D经费投入、R&D机构人员投入、R&D设施平台投入;创新产出维度包括:科技论文、发明专利、技术贡献、产业贡献等。
科技态势大数据治理框架体系
基于大数据生态架构和机器学习关键技术开发科技态势数据采集、抽取与融合、存储、索引和数据分析等先进方法,形成科技大数据治理模型和框架体系,实现对科技战略政策文本数据、科技投入产出数据、技术经济数据、环境社会影响数据等的智能采集、语义化知识组织和定量可视化分析,重点研究内容包括3方面。
1)科技态势数据采集和加工处理。对3个层面的数据资源进行收集整理,一是已经建成的科技领域专业平台系统数据库和非结构化、半结构化和结构化数据的采集和集成;二是动态科技监测实时流数据的采集;三是科技领域开放数据的采集等。通过数据清洗、格式转换、实体和关系抽取、数据汇聚和关联、有效性效验等数据处理工作,加工数据进入科技大数据云存储中心。
2)科技态势数据分布式存储。建设基于云计算的科技大数据分布式云存储系统,以支持海量科技数据资源的存储扩展。深入研究大数据文件系统的海量数据管理规范,通过海量异构数据的抽取、映射、收割、导入等集成方法,形成清晰的大数据存储结构。
3)科技态势数据挖掘应用。研究在大数据环境下构建多种微服务集群,提供多种大数据处理架构下机器学习、数据挖掘算法和计算模型支持,对多源异构科技数据进行政策文本计算、比较分析、聚类分析、因果分析、关联分析、趋势预测等分析,实现数据深度挖掘,为科技前沿识别、态势刻画、趋势预测以及技术评估提供数据分析支撑。
科技大数据及情报应用服务体系
完善科技大数据及情报应用服务体系设计,通过构建覆盖多部门、多层次的协同服务体系,开展数据驱动型情报咨询服务,发布系列化数据分析与情报研究报告等决策支持产品,重点研究内容有3个方面。
1)建设用户情景导向的科技大数据及情报应用服务产品体系。研究构建国家政府部门、一流科研院所、创新科技企业、社会公众不同层级的典型需求模型,设计相应的精细化加工数据产品、情报报告和服务体系。
2)建设科技态势大数据及情报应用服务云平台,对内建立完善的科技数据与情报成果管理和共享机制;对外提供科技态势大数据多维检索与分析,以及情报研究咨询定制服务,提高科技大数据及情报应用服务的便利性、规范性和权威性。
3)探索研究主动对外服务和社会化传播模式。丰富科技云平台的数据在线服务和情报产品个性化定制服务,提供数据规范应用程序编程接口(API),并依托学术期刊、报纸、微信新媒体等平台,传播科技态势大数据与情报成果。
科技态势大数据运维保障支撑体系
科技态势大数据运维保障支撑体系重点研究内容包括3个方面。
1)制定完善的科技态势大数据体系标准规范,保证数据集群应用过程中各个环节正规有序,对科技态势大数据集群涉及的元数据标准、数据存储、数据共享和重用以及合理使用数据问题能够快速响应,并合理解决。
2)形成科技态势数据资源可持续收集汇聚标准流程,保障海量异构数据资源通过定期下载、采集、收割等资源获取方法形成科技态势重要方向结构化、半结构化和非结构化数据资源的完整性和有效性,构建完善的科技态势数据深加工机制。
3)建立可靠的技术支撑和支持保障机制,形成稳定的科技态势数据资源获取、数据资源组织、数据资源存储到数据资源分析应用等一系列工作的长期可持续服务机制,依托平台形成完备科技态势数据资源基础服务环境,保障服务平台的稳定运维。
结 论
提出了一种数据驱动型科技情报研究新模式的概念框架,以建立科技大数据及情报应用服务体系为目标,以形成完备的科技大数据结构体系和有效的科技大数据治理框架体系为基础,以大数据生态圈信息技术和服务平台为支撑,以打造科技数据与情报服务产品为抓手,以数据标准和工作规范为机制保障,丰富化科技大数据资源和情报应用服务产品,全面提升科技大数据与情报应用服务的能力和水平。未来研究将进一步优化系统设计,并在解决实际决策问题的现实环境中进行评估。