浅议中文新闻信息技术标准
摘要
中文新闻信息技术标准的建立是各新闻单位事业发展的共同需要,它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力。本文从我国新闻行业需要中文新闻信息技术标准、中文新闻信息技术标准是综合集成各类新闻信息的利器、中文新闻信息技术标准为新闻信息资源的鉴别提供支持、中文新闻信息技术标准有利于实现新闻信息资源的价值最大化、中文新闻信息技术标准便于新闻信息资源的发现及后续工作、技术分析、自动分类标引的构想与实现、与地方报社的关系等九个方面对中文新闻信息技术标准进行了浅议。
关键词:中文新闻信息技术标准 中文新闻信息置标语言 中文新闻信息分类与代码 CNML
一、引言
2006年5月25日,由国家质量监督检验检疫总局、国家标准化管理委员会、新华通讯社联合举办的中文新闻信息技术标准新闻发布会在北京举行。中国新闻界首次研制的中文新闻信息技术两项国家标准——《中文新闻信息置标语言》、《中文新闻信息分类与代码》于2006年5月1日起正式颁布实施。中文新闻信息技术标准研制课题是科技部2003年11月确定的国家“十五”重大科技专项,由新华社牵头,联合了国务院新闻办、广电总局、新闻出版总署、人民日报社、光明日报社、经济日报社、中央人民广播电台、中央电视台和中国新闻技术工作者联合会、清华大学等新闻单位、研究机构共同研制。
国家标准化管理委员会主任刘平均说,《中文新闻信息置标语言》国家标准规范了在新闻信息稿的创建、采集、加工、发布、评估、反馈等过程中使用的多媒体新闻信息元数据规范。这种技术支持文字、图片、图形、音频、视频等多媒体类型,可以用于多媒体新闻信息在通讯社、报社、广播电台、电视台、互联网站以及新闻信息用户之间进行交换和共享。《中文新闻信息分类与代码》国家标准总结了我国主要传媒机构新闻信息分类多年的实践经验,参考了国际上具有广泛影响力的新闻信息分类体系,形成了具有中文特点的新闻信息分类代码体系,既与国际接轨,又具中文特色;具有涵盖面广、新闻特色鲜明、扩展性好、易于推广的特点。这两项标准具有前瞻性、跨媒体和自主创新的特点,是具有自主知识产权的我国第一批新闻信息技术标准。
我国新闻界长期以来没有统一的信息技术标准,造成了新闻信息共享和资源利用的种种困难,也是数字化重复建设以及信息资源浪费的重要原因。中文新闻信息技术国家标准的建立是各新闻单位事业发展的共同需要,填补了我国乃至全球华语地区新闻信息技术领域标准的空白,是我国新闻技术发展史上的里程碑。它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力,必将有力地促进华语地区新闻信息交流和共享,增强中文新闻信息在海外的核心竞争力,推动华语新闻行业的标准化进程。
二、我国新闻行业需要中文新闻信息技术标准
制定中文新闻信息技术标准是几代新闻工作者的期盼。它不仅是提高我国新闻信息产品竞争力的需要,是各新闻单位事业发展的共同需要,而且也是保障国家新闻信息安全的需要。从世界角度看,标准的使用还有利于让全世界更多地听到中国及世界华人声音。使用这个标准,有利于整合全球中文新闻信息资源,让全球华人在一个技术平台上共享全世界的中文新闻信息,有利于打破西方新闻舆论垄断、建立世界新闻新秩序。这不仅是中国新闻史上,也是全球华文媒体发展史上的一件大事。长期以来,我们中国也好,世界其他华人地区也好,由于标准的不同,出现无数个“信息孤岛”现象,造成了中文新闻信息共享和资源利用的种种困难,这也是数字化重复建设及信息资源浪费的重要原因。中文作为世界上主要的文字之一,没有统一的新闻信息技术标准是不能适应时代发展需要的。没有统一的标准就不能资源共享,无法实现中文新闻信息的全球化。发展需要中文有一个共同的标准,来提高核心竞争力。因此,在研制标准之初,就确立了一个较高的起点和定位,不仅要把它做成国家标准,而且要做成高水平的国际标准。这个标准将从源头上提高我国新闻科技产业的核心竞争力,为国家新闻科技产业提供一个跨越式发展的技术平台,还将有力推动多媒体新闻在中国乃至全球华语地区新闻行业的应用,具有历史性的重要意义。
它将结束我国新闻行业长期以来没有国家标准的历史,推动全国范围内以至华语地区新闻信息的交流和共享,消除大大小小信息孤岛相互阻隔的现象,填补传媒科技领域的重大空白,为华语新闻行业的标准化奠定重要的技术基础,同时,在一些当前新闻行业急需解决的重要课题上,如多媒体新闻信息的发布和交换,多媒体新闻数据库及新闻内容资产管理,稿件查询的准确性、知识挖掘的语义支持等方面,也将提供有力的标准化支持。将会极大地推动多媒体新闻在国内新闻行业的应用,促进我国信息咨询服务业的发展,将丰富国家标准体系的内容,在国家标准体系的发展上产生重要影响,是“让华人融入世界、让世界了解中国”的桥梁。
三、中文新闻信息技术标准是综合集成各类新闻信息的利器
科技的进步给新闻传播的发展提供了有力的技术支持,带来深刻的变化。特别是计算机网络的发明,使新闻传播出现巨大变化。首当其冲的就是新闻传播主体扩展,新出现的网络新闻改变了新闻主体的构成,使新闻传播主体由报纸、广播电台、电视台扩展到随机的个人与其他社会组织。特别是政务信息的公开,许多政府网站成为强劲的新闻传播主体。《中文新闻信息分类标准》充分地考虑到新闻信息的综合性、社会性与全面性,具有比以往任何一部新闻信息分类法更大的容量、更宽的覆盖空间,可以用来聚合千千万万零散的、来自不同传播主体的新闻信息,真正做到“集腋成裘”,达到最大程度地整合新闻信息资源的目的。通过将不同新闻主体(报纸、广播电台、电视台与网络新闻)的新闻信息资源有机的整合,有利于在统一标准下建立中文新闻联合资料库,为新闻信息资源的增值开发、新闻信息的产品化提供基本条件。
四、中文新闻信息技术标准为新闻信息资源的鉴别提供支持
随着越来越多的媒体创办网站,发布新闻信息,加上一部分个体和社会组织上网发布新闻信息,新闻信息的总量急剧增加。同时,由于不同的新闻传播主体具有不同的新闻传播目的,不同的新闻传播特点,这将使新闻信息的质量发生很大的变化。在新闻传播主体的复杂化、新闻信息的质与量发生变化的态势下,怎样保证提供高质量的新闻信息是对新闻工作者的一大挑战。
新闻信息资源能否得到开发,以及开发的广度与深度,很大程度上取决于媒介主体对新闻信息资源的鉴别与认识,取决于他们能否判断新闻信息资源的真伪、分析新闻信息资源的价值大小。新闻信息资源的丰富性、复杂性与多变性,媒介主体难以完全凭借自己的知识及以往经验对海量新闻信息资源做出最准确判断,它需要借助相关文献资料、在各类信息载体上进行相关内容的搜索,以通过对不同渠道获得的信息的相互比较研究,得出可靠结论。《中文新闻信息分类标准》由于可以达到最大程度的聚类及综合集成各类信息,从而为媒介主体或用户比较、分析信息的真伪与价值大小提供了便利,于是从根本上维护了新闻信息用户的利益。
五、中文新闻信息技术标准有利于实现新闻信息资源的价值最大化
《中文新闻信息分类标准》突破了不同类型新闻媒介的相互分割,实现了文字、照片、音视频与网络等不同形式新闻信息的统一分类,这有利于及时而全面的对新闻信息资源进行采集与编辑,有利于分别从不同角度对同一新闻事件进行更有深度或个性的报道,也便于将同类信息编辑成新闻信息产品(如书、图片集或电影等)。《中文新闻信息分类标准》为对各类新闻信息资源的重新组合提供了工具,为新闻信息的增值性开发、实现新闻信息资源的价值最大化提供了便利。
六、中文新闻信息技术标准便于新闻信息资源的发现
现今,“我国大部分电台、电视台的制作、播出环节基本实现了数字化,卫星、光缆干线传输已实现了数字化;到目前为止,我国依法取得登载新闻资格的互联网站有150家,全国有1400家新闻媒体创办了网络版” 。怎样在浩瀚无序的互联网信息中发现用户的需求,《中文新闻信息分类标准》提供了最佳解决方案——分类搜索。分类搜索以科学、实用的分类目录为工具,以规范化的自然语言为类名,在对网络信息归纳、概括的基础上,以网站为单元,提供经过专家评价和人工整序的网络信息。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,“纵向成枝,横向成网”,只需“按图索骥”,同一类属或相关主题的信息即可“循类以求”,适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题,因而它是新闻信息检索的最好工具。《中文新闻信息分类标准》为新闻信息分类搜索奠定了厚实基础,因而有利于用户在浩瀚的信息海洋中发现新闻信息资源。《中文新闻信息分类标准》作为新闻界的信息管理工具,其社会作用与意义远远超越了作为工具的影响。
七、中文新闻信息技术标准的后续工作
标准的发展都要经历一个非常完整的生命周期“制定、推广、应用、维护、完善、发展”,为此,要考虑以下几个问题:
1、后续标准的建设问题
如何对后续标准的制定进行持续有力的支持。
2、标准维护机构问题
国内新闻行业目前还没有标准组织,很多新闻单位都已认识到了建立标准管理维护机构的重要性和迫切性,呼吁尽快建立新闻行业的标准管理机构。
3、标准的推广问题
标准重在推广,必需尽早规划。
4、尽快建立标准管理技术平台
标准的目的在于应用,做好标准的推广、应用、维护、修订、完善工作,力求使标准发挥出更好的作用,建立新闻信息技术标准体系。
八、中文新闻信息技术标准的技术分析
标准是在充分研究现有国际国内相关技术标准的基础上,解放思想,立足自身,锐意创新,走自己的路设计出的国家标准。标准制定的首要任务是实现跨媒体的数据交换,为媒体行业提供一个统一的元数据标准和交换格式,进而实现数据共享。标准应该能够很好地描述交换数据的内容信息,具有一定的前瞻性。根据需求调研和技术发展的趋势要求,标准需要对所交换的数据提供更多语义方面的支持,提供稿件之间和稿件内容项之间的关联关系,以便为知识挖掘提供进一步支持,为新闻媒体资产的增值业务提供服务。
总体看来,体现在如下这些方面:
1、总体技术路线
第一,标准突出体现了CNML的两个重要点,一为用于交换的数据,二为数据之间的语义关系。这在国内现有XML标准制定中是一个创新。
第二,通过建模方法构建了一个统一的标准概念模型,在此概念模型的基础上,采用XML和RDF两种技术方法设计两套标准Schema,两套Schema在设计上充分考虑了各自技术特点,以便将来在应用中实现相互之间的转换和融合。
第三,CNML中的通用新闻对象采用了一种抽象的表示形式,真正的新闻对象只在实例化时才进行替代,以实现标准良好的扩展性。
第四,充分地分析了数据层和语义层所表达信息的结构和内容,将可能出现的稿件与稿件、内容项与内容相之间的逻辑关系提取出来,定义出标准中可能出现的信息结构和语义逻辑关系,以实现对标准的元数据和标准的逻辑语义关系进行方便描述。
2、标准概念模型具有如下特点:
1) CNML概念模型和NewsML1.x概念模型对应的现实对象模型是一致的。
2) CNML概念模型中取消了新闻组件这样一个中间层次,消除了由于新闻组件引入导致的各种复杂嵌套的物理结构。
3) 在CNML概念模型中,解决了稿件和内容项共性和特性的表达矛盾。
3、元数据模型的建立
在基于XML Schema的元数据项设计中,注重标准设计概念的整体统一,以利于使用者可以清晰地理解标准的设计思想。
4、面向对象的设计
在CNML标准设计中,采用了数据建模思想和面向对象的设计方法,有效地确立了标准的基础研究方法。
5、易用性强的新闻元数据组设计
考虑了新闻行业元数据的特点,借鉴了NewsML的元数据分类方法,确定了简洁易管理的CNML新闻元数据的分类规则。
6、关系模型的设计
标准概念模型中引入了新的关系逻辑,丰富了稿件、内容项、受控词表的关系表达,可以大大方便对内容项、稿件进行内容存储管理和资产应用,也有利于保证标准概念和结构不会出现二义性。
7、扩展机制
CNML在满足现有新闻数据交换的基础上,为满足未来可能出现的数据交换的新需求提供了良好的扩展机制,其扩展机制包括标准模式结构本身的扩展和元数据的扩展两大方面。
8、具备新闻信息的数字签名功能
新闻信息的安全性非常重要,考虑到新闻的具体情况,CNML中的数字签名机制是基于以下安全性指标进行设计的:
1) 稿件内容的完整性。
2) 稿件内容的身份识别(原创性证明)。
3) 确保签名者的信息是真实唯一的。
4) 确保CNML文档包含的附件内容、样式单内容在传输过程中不被窜改,接收方能够认证所接收的被保护的内容是否与发送时的内容一致。
9、内联标记的设计
CNML提供了一组可以内嵌在稿件正文内容中标识主题词的标记。
10、新闻信息分类标准
新闻信息分类标准不仅是为新闻信息分类工作人员提供分类标引的依据,而且是广大用户实现对中文新闻信息资源自动化检索的前提,是采用线分类和面分类相结合的分类方法,由主类表和若干复分表共同构成完整的分类体系。从新闻信息的特点出发,综合运用多种技术手段,使标准更好地适应新闻信息分类及检索的需要。如:预留空号易修订,专用类号助记忆,新闻专题作类目,复分、仿分减少共性类目,分类与主题相结合等。
九、利用中文新闻信息技术标准实现自动分类标引的构想与实现
1、自动分类与自动标引
自动分类就是用计算机系统代替人工按照一定的分类标准或者分类参考,对文献等对象进行分类。从数学角度来看,自动分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射。评估文本分类系统的三个指标是准确率、查全率和F1值,其数学表达式如下:
自动标引就是抽取有用的信息,其中一条重要途径是以主题词为索引词,所以当自动主题标引系统的性能提高时,检索系统的性能也会相应提高。
2、实现自动分类的总体框架
中文新闻信息自动分类的核心是采用提取内容文本的主题词进行分类,并对系统所使用的主题词权值表进行动态调整。简要流程如下:
1、读取内容文本。
2、使用自动分词获取主题词。
3、查询主题词的权值。
4、统计各类主题词的权值。
5、根据规则计算和调整结果。
6、根据权值结果将文本分类。
7、对错误分类的文章可以人工动态调整,并反馈给系统。
3、实现自动标引的总体框架
十、与地方报社的关系
在《盘点:2006中国报业技术应用关键词》这篇文章中,关键词排名第一的是“统一平台/一体化平台”,第二就是“中文新闻信息标准”。截至今年,大众日报报业集团、浙江日报报业集团、南方报业传媒集团、解放日报报业集团等都进行了不同程度的“统一平台/一体化平台”,这既是资源的整合,也是技术的融合。技术融合的关键之点就是要有一个标准,只有有了一个统一的标准,才可能有统一平台/一体化平台。在信息时代的今天,信息技术的发展呈现出“百花齐放”、“百家争鸣”的局面,没有那一种技术,那一个技术流派,乃至那一个产品能够“包打天下”,统一平台。不管你讲山东话、杭州话、广东话,还是上海话,出的报纸都是汉字,“君子和而不同”,有容乃大,这就是标准的作用和魅力。对于我们地方报社,谁使用,谁受益,让所有媒体用了这个标准就能得益。
结论:
中文新闻信息技术标准作为新闻界的信息管理工具,其社会作用与意义远远超越了作为工具的影响。中文新闻信息技术标准的建立是各新闻单位事业发展的共同需要,它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力。
参考文献:
1、新华社,我国中文新闻信息技术有了统一的国家标准,http://news3.xinhuanet.com/newmedia/2006-05/26/content_4601341.htm
2、新华社,鲁炜:我国第一部中文新闻信息技术标准诞生记,http://news3.xinhuanet.com/newmedia/2006-02/10/content_4160136.htm
3、刘家真,《中文新闻信息分类标准》的多元化功能,http://news3.xinhuanet.com/newmedia/2006-02/10/content_4160355.htm
4、谢胜和,中文新闻信息技术标准研制课题情况及评估,新华网-《中国传媒科技》
5、武国卫,中文新闻信息置标语言标准项目技术路线优势分析,http://news3.xinhuanet.com/it/2006-05/26/content_4604785.htm
6、林红、徐曼,中文新闻信息分类与代码编制原则、方法及技术优势概述,http://news3.xinhuanet.com/it/2006-05/26/content_4604760.htm
7、新华社,富媒体时代新闻信息概念模型的探索研究,http://news3.xinhuanet.com/it/2006-05/26/content_4604972.htm
8、邓茜、林红,中文新闻信息自动分类标引的构想与实现,《中国传媒科技》2005.9
9、新华社,盘点:2006中国报业技术应用关键词,http://news3.xinhuanet.com/newmedia/2007-01/16/content_5613034_1.htm
致谢
感谢我的研究生导师王锋教授多年来对我孜孜不倦的教诲,是他在我迷盲之中指点迷津,从而进入中文信息处理技术领域这一博大精深的科学殿堂;感谢以新华社武国卫高工和清华大学计算机系李涓子副教授为代表的中文新闻信息技术标准研制课题组的杰出贡献,使我们能够在此基础上进行中文新闻信息技术标准方面的学习和研究;感谢报社主管技术工作的张稼文副总编多年来在文字上对我的谆谆教导和给予我在中文信息处理技术领域研究工作上的支持,让我在报社项目和科研选题上能够充分发挥自己的能力和特长;感谢报社各位同事的鼎立支持,是他们的出色工作和取得的成绩,坚定了我在这一领域继续探索的决心。
本文转自
http://bbs.clzg.cn/viewthread.php?tid=11637
摘要
中文新闻信息技术标准的建立是各新闻单位事业发展的共同需要,它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力。本文从我国新闻行业需要中文新闻信息技术标准、中文新闻信息技术标准是综合集成各类新闻信息的利器、中文新闻信息技术标准为新闻信息资源的鉴别提供支持、中文新闻信息技术标准有利于实现新闻信息资源的价值最大化、中文新闻信息技术标准便于新闻信息资源的发现及后续工作、技术分析、自动分类标引的构想与实现、与地方报社的关系等九个方面对中文新闻信息技术标准进行了浅议。
关键词:中文新闻信息技术标准 中文新闻信息置标语言 中文新闻信息分类与代码 CNML
一、引言
2006年5月25日,由国家质量监督检验检疫总局、国家标准化管理委员会、新华通讯社联合举办的中文新闻信息技术标准新闻发布会在北京举行。中国新闻界首次研制的中文新闻信息技术两项国家标准——《中文新闻信息置标语言》、《中文新闻信息分类与代码》于2006年5月1日起正式颁布实施。中文新闻信息技术标准研制课题是科技部2003年11月确定的国家“十五”重大科技专项,由新华社牵头,联合了国务院新闻办、广电总局、新闻出版总署、人民日报社、光明日报社、经济日报社、中央人民广播电台、中央电视台和中国新闻技术工作者联合会、清华大学等新闻单位、研究机构共同研制。
国家标准化管理委员会主任刘平均说,《中文新闻信息置标语言》国家标准规范了在新闻信息稿的创建、采集、加工、发布、评估、反馈等过程中使用的多媒体新闻信息元数据规范。这种技术支持文字、图片、图形、音频、视频等多媒体类型,可以用于多媒体新闻信息在通讯社、报社、广播电台、电视台、互联网站以及新闻信息用户之间进行交换和共享。《中文新闻信息分类与代码》国家标准总结了我国主要传媒机构新闻信息分类多年的实践经验,参考了国际上具有广泛影响力的新闻信息分类体系,形成了具有中文特点的新闻信息分类代码体系,既与国际接轨,又具中文特色;具有涵盖面广、新闻特色鲜明、扩展性好、易于推广的特点。这两项标准具有前瞻性、跨媒体和自主创新的特点,是具有自主知识产权的我国第一批新闻信息技术标准。
我国新闻界长期以来没有统一的信息技术标准,造成了新闻信息共享和资源利用的种种困难,也是数字化重复建设以及信息资源浪费的重要原因。中文新闻信息技术国家标准的建立是各新闻单位事业发展的共同需要,填补了我国乃至全球华语地区新闻信息技术领域标准的空白,是我国新闻技术发展史上的里程碑。它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力,必将有力地促进华语地区新闻信息交流和共享,增强中文新闻信息在海外的核心竞争力,推动华语新闻行业的标准化进程。
二、我国新闻行业需要中文新闻信息技术标准
制定中文新闻信息技术标准是几代新闻工作者的期盼。它不仅是提高我国新闻信息产品竞争力的需要,是各新闻单位事业发展的共同需要,而且也是保障国家新闻信息安全的需要。从世界角度看,标准的使用还有利于让全世界更多地听到中国及世界华人声音。使用这个标准,有利于整合全球中文新闻信息资源,让全球华人在一个技术平台上共享全世界的中文新闻信息,有利于打破西方新闻舆论垄断、建立世界新闻新秩序。这不仅是中国新闻史上,也是全球华文媒体发展史上的一件大事。长期以来,我们中国也好,世界其他华人地区也好,由于标准的不同,出现无数个“信息孤岛”现象,造成了中文新闻信息共享和资源利用的种种困难,这也是数字化重复建设及信息资源浪费的重要原因。中文作为世界上主要的文字之一,没有统一的新闻信息技术标准是不能适应时代发展需要的。没有统一的标准就不能资源共享,无法实现中文新闻信息的全球化。发展需要中文有一个共同的标准,来提高核心竞争力。因此,在研制标准之初,就确立了一个较高的起点和定位,不仅要把它做成国家标准,而且要做成高水平的国际标准。这个标准将从源头上提高我国新闻科技产业的核心竞争力,为国家新闻科技产业提供一个跨越式发展的技术平台,还将有力推动多媒体新闻在中国乃至全球华语地区新闻行业的应用,具有历史性的重要意义。
它将结束我国新闻行业长期以来没有国家标准的历史,推动全国范围内以至华语地区新闻信息的交流和共享,消除大大小小信息孤岛相互阻隔的现象,填补传媒科技领域的重大空白,为华语新闻行业的标准化奠定重要的技术基础,同时,在一些当前新闻行业急需解决的重要课题上,如多媒体新闻信息的发布和交换,多媒体新闻数据库及新闻内容资产管理,稿件查询的准确性、知识挖掘的语义支持等方面,也将提供有力的标准化支持。将会极大地推动多媒体新闻在国内新闻行业的应用,促进我国信息咨询服务业的发展,将丰富国家标准体系的内容,在国家标准体系的发展上产生重要影响,是“让华人融入世界、让世界了解中国”的桥梁。
三、中文新闻信息技术标准是综合集成各类新闻信息的利器
科技的进步给新闻传播的发展提供了有力的技术支持,带来深刻的变化。特别是计算机网络的发明,使新闻传播出现巨大变化。首当其冲的就是新闻传播主体扩展,新出现的网络新闻改变了新闻主体的构成,使新闻传播主体由报纸、广播电台、电视台扩展到随机的个人与其他社会组织。特别是政务信息的公开,许多政府网站成为强劲的新闻传播主体。《中文新闻信息分类标准》充分地考虑到新闻信息的综合性、社会性与全面性,具有比以往任何一部新闻信息分类法更大的容量、更宽的覆盖空间,可以用来聚合千千万万零散的、来自不同传播主体的新闻信息,真正做到“集腋成裘”,达到最大程度地整合新闻信息资源的目的。通过将不同新闻主体(报纸、广播电台、电视台与网络新闻)的新闻信息资源有机的整合,有利于在统一标准下建立中文新闻联合资料库,为新闻信息资源的增值开发、新闻信息的产品化提供基本条件。
四、中文新闻信息技术标准为新闻信息资源的鉴别提供支持
随着越来越多的媒体创办网站,发布新闻信息,加上一部分个体和社会组织上网发布新闻信息,新闻信息的总量急剧增加。同时,由于不同的新闻传播主体具有不同的新闻传播目的,不同的新闻传播特点,这将使新闻信息的质量发生很大的变化。在新闻传播主体的复杂化、新闻信息的质与量发生变化的态势下,怎样保证提供高质量的新闻信息是对新闻工作者的一大挑战。
新闻信息资源能否得到开发,以及开发的广度与深度,很大程度上取决于媒介主体对新闻信息资源的鉴别与认识,取决于他们能否判断新闻信息资源的真伪、分析新闻信息资源的价值大小。新闻信息资源的丰富性、复杂性与多变性,媒介主体难以完全凭借自己的知识及以往经验对海量新闻信息资源做出最准确判断,它需要借助相关文献资料、在各类信息载体上进行相关内容的搜索,以通过对不同渠道获得的信息的相互比较研究,得出可靠结论。《中文新闻信息分类标准》由于可以达到最大程度的聚类及综合集成各类信息,从而为媒介主体或用户比较、分析信息的真伪与价值大小提供了便利,于是从根本上维护了新闻信息用户的利益。
五、中文新闻信息技术标准有利于实现新闻信息资源的价值最大化
《中文新闻信息分类标准》突破了不同类型新闻媒介的相互分割,实现了文字、照片、音视频与网络等不同形式新闻信息的统一分类,这有利于及时而全面的对新闻信息资源进行采集与编辑,有利于分别从不同角度对同一新闻事件进行更有深度或个性的报道,也便于将同类信息编辑成新闻信息产品(如书、图片集或电影等)。《中文新闻信息分类标准》为对各类新闻信息资源的重新组合提供了工具,为新闻信息的增值性开发、实现新闻信息资源的价值最大化提供了便利。
六、中文新闻信息技术标准便于新闻信息资源的发现
现今,“我国大部分电台、电视台的制作、播出环节基本实现了数字化,卫星、光缆干线传输已实现了数字化;到目前为止,我国依法取得登载新闻资格的互联网站有150家,全国有1400家新闻媒体创办了网络版” 。怎样在浩瀚无序的互联网信息中发现用户的需求,《中文新闻信息分类标准》提供了最佳解决方案——分类搜索。分类搜索以科学、实用的分类目录为工具,以规范化的自然语言为类名,在对网络信息归纳、概括的基础上,以网站为单元,提供经过专家评价和人工整序的网络信息。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,“纵向成枝,横向成网”,只需“按图索骥”,同一类属或相关主题的信息即可“循类以求”,适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题,因而它是新闻信息检索的最好工具。《中文新闻信息分类标准》为新闻信息分类搜索奠定了厚实基础,因而有利于用户在浩瀚的信息海洋中发现新闻信息资源。《中文新闻信息分类标准》作为新闻界的信息管理工具,其社会作用与意义远远超越了作为工具的影响。
七、中文新闻信息技术标准的后续工作
标准的发展都要经历一个非常完整的生命周期“制定、推广、应用、维护、完善、发展”,为此,要考虑以下几个问题:
1、后续标准的建设问题
如何对后续标准的制定进行持续有力的支持。
2、标准维护机构问题
国内新闻行业目前还没有标准组织,很多新闻单位都已认识到了建立标准管理维护机构的重要性和迫切性,呼吁尽快建立新闻行业的标准管理机构。
3、标准的推广问题
标准重在推广,必需尽早规划。
4、尽快建立标准管理技术平台
标准的目的在于应用,做好标准的推广、应用、维护、修订、完善工作,力求使标准发挥出更好的作用,建立新闻信息技术标准体系。
八、中文新闻信息技术标准的技术分析
标准是在充分研究现有国际国内相关技术标准的基础上,解放思想,立足自身,锐意创新,走自己的路设计出的国家标准。标准制定的首要任务是实现跨媒体的数据交换,为媒体行业提供一个统一的元数据标准和交换格式,进而实现数据共享。标准应该能够很好地描述交换数据的内容信息,具有一定的前瞻性。根据需求调研和技术发展的趋势要求,标准需要对所交换的数据提供更多语义方面的支持,提供稿件之间和稿件内容项之间的关联关系,以便为知识挖掘提供进一步支持,为新闻媒体资产的增值业务提供服务。
总体看来,体现在如下这些方面:
1、总体技术路线
第一,标准突出体现了CNML的两个重要点,一为用于交换的数据,二为数据之间的语义关系。这在国内现有XML标准制定中是一个创新。
第二,通过建模方法构建了一个统一的标准概念模型,在此概念模型的基础上,采用XML和RDF两种技术方法设计两套标准Schema,两套Schema在设计上充分考虑了各自技术特点,以便将来在应用中实现相互之间的转换和融合。
第三,CNML中的通用新闻对象采用了一种抽象的表示形式,真正的新闻对象只在实例化时才进行替代,以实现标准良好的扩展性。
第四,充分地分析了数据层和语义层所表达信息的结构和内容,将可能出现的稿件与稿件、内容项与内容相之间的逻辑关系提取出来,定义出标准中可能出现的信息结构和语义逻辑关系,以实现对标准的元数据和标准的逻辑语义关系进行方便描述。
2、标准概念模型具有如下特点:
1) CNML概念模型和NewsML1.x概念模型对应的现实对象模型是一致的。
2) CNML概念模型中取消了新闻组件这样一个中间层次,消除了由于新闻组件引入导致的各种复杂嵌套的物理结构。
3) 在CNML概念模型中,解决了稿件和内容项共性和特性的表达矛盾。
3、元数据模型的建立
在基于XML Schema的元数据项设计中,注重标准设计概念的整体统一,以利于使用者可以清晰地理解标准的设计思想。
4、面向对象的设计
在CNML标准设计中,采用了数据建模思想和面向对象的设计方法,有效地确立了标准的基础研究方法。
5、易用性强的新闻元数据组设计
考虑了新闻行业元数据的特点,借鉴了NewsML的元数据分类方法,确定了简洁易管理的CNML新闻元数据的分类规则。
6、关系模型的设计
标准概念模型中引入了新的关系逻辑,丰富了稿件、内容项、受控词表的关系表达,可以大大方便对内容项、稿件进行内容存储管理和资产应用,也有利于保证标准概念和结构不会出现二义性。
7、扩展机制
CNML在满足现有新闻数据交换的基础上,为满足未来可能出现的数据交换的新需求提供了良好的扩展机制,其扩展机制包括标准模式结构本身的扩展和元数据的扩展两大方面。
8、具备新闻信息的数字签名功能
新闻信息的安全性非常重要,考虑到新闻的具体情况,CNML中的数字签名机制是基于以下安全性指标进行设计的:
1) 稿件内容的完整性。
2) 稿件内容的身份识别(原创性证明)。
3) 确保签名者的信息是真实唯一的。
4) 确保CNML文档包含的附件内容、样式单内容在传输过程中不被窜改,接收方能够认证所接收的被保护的内容是否与发送时的内容一致。
9、内联标记的设计
CNML提供了一组可以内嵌在稿件正文内容中标识主题词的标记。
10、新闻信息分类标准
新闻信息分类标准不仅是为新闻信息分类工作人员提供分类标引的依据,而且是广大用户实现对中文新闻信息资源自动化检索的前提,是采用线分类和面分类相结合的分类方法,由主类表和若干复分表共同构成完整的分类体系。从新闻信息的特点出发,综合运用多种技术手段,使标准更好地适应新闻信息分类及检索的需要。如:预留空号易修订,专用类号助记忆,新闻专题作类目,复分、仿分减少共性类目,分类与主题相结合等。
九、利用中文新闻信息技术标准实现自动分类标引的构想与实现
1、自动分类与自动标引
自动分类就是用计算机系统代替人工按照一定的分类标准或者分类参考,对文献等对象进行分类。从数学角度来看,自动分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射。评估文本分类系统的三个指标是准确率、查全率和F1值,其数学表达式如下:
自动标引就是抽取有用的信息,其中一条重要途径是以主题词为索引词,所以当自动主题标引系统的性能提高时,检索系统的性能也会相应提高。
2、实现自动分类的总体框架
中文新闻信息自动分类的核心是采用提取内容文本的主题词进行分类,并对系统所使用的主题词权值表进行动态调整。简要流程如下:
1、读取内容文本。
2、使用自动分词获取主题词。
3、查询主题词的权值。
4、统计各类主题词的权值。
5、根据规则计算和调整结果。
6、根据权值结果将文本分类。
7、对错误分类的文章可以人工动态调整,并反馈给系统。
3、实现自动标引的总体框架
十、与地方报社的关系
在《盘点:2006中国报业技术应用关键词》这篇文章中,关键词排名第一的是“统一平台/一体化平台”,第二就是“中文新闻信息标准”。截至今年,大众日报报业集团、浙江日报报业集团、南方报业传媒集团、解放日报报业集团等都进行了不同程度的“统一平台/一体化平台”,这既是资源的整合,也是技术的融合。技术融合的关键之点就是要有一个标准,只有有了一个统一的标准,才可能有统一平台/一体化平台。在信息时代的今天,信息技术的发展呈现出“百花齐放”、“百家争鸣”的局面,没有那一种技术,那一个技术流派,乃至那一个产品能够“包打天下”,统一平台。不管你讲山东话、杭州话、广东话,还是上海话,出的报纸都是汉字,“君子和而不同”,有容乃大,这就是标准的作用和魅力。对于我们地方报社,谁使用,谁受益,让所有媒体用了这个标准就能得益。
结论:
中文新闻信息技术标准作为新闻界的信息管理工具,其社会作用与意义远远超越了作为工具的影响。中文新闻信息技术标准的建立是各新闻单位事业发展的共同需要,它的出台将极大地推动多媒体新闻在行业内的应用,推动新闻信息的深加工和增值服务,从源头上提高我国新闻科技产业的核心竞争力。
参考文献:
1、新华社,我国中文新闻信息技术有了统一的国家标准,http://news3.xinhuanet.com/newmedia/2006-05/26/content_4601341.htm
2、新华社,鲁炜:我国第一部中文新闻信息技术标准诞生记,http://news3.xinhuanet.com/newmedia/2006-02/10/content_4160136.htm
3、刘家真,《中文新闻信息分类标准》的多元化功能,http://news3.xinhuanet.com/newmedia/2006-02/10/content_4160355.htm
4、谢胜和,中文新闻信息技术标准研制课题情况及评估,新华网-《中国传媒科技》
5、武国卫,中文新闻信息置标语言标准项目技术路线优势分析,http://news3.xinhuanet.com/it/2006-05/26/content_4604785.htm
6、林红、徐曼,中文新闻信息分类与代码编制原则、方法及技术优势概述,http://news3.xinhuanet.com/it/2006-05/26/content_4604760.htm
7、新华社,富媒体时代新闻信息概念模型的探索研究,http://news3.xinhuanet.com/it/2006-05/26/content_4604972.htm
8、邓茜、林红,中文新闻信息自动分类标引的构想与实现,《中国传媒科技》2005.9
9、新华社,盘点:2006中国报业技术应用关键词,http://news3.xinhuanet.com/newmedia/2007-01/16/content_5613034_1.htm
致谢
感谢我的研究生导师王锋教授多年来对我孜孜不倦的教诲,是他在我迷盲之中指点迷津,从而进入中文信息处理技术领域这一博大精深的科学殿堂;感谢以新华社武国卫高工和清华大学计算机系李涓子副教授为代表的中文新闻信息技术标准研制课题组的杰出贡献,使我们能够在此基础上进行中文新闻信息技术标准方面的学习和研究;感谢报社主管技术工作的张稼文副总编多年来在文字上对我的谆谆教导和给予我在中文信息处理技术领域研究工作上的支持,让我在报社项目和科研选题上能够充分发挥自己的能力和特长;感谢报社各位同事的鼎立支持,是他们的出色工作和取得的成绩,坚定了我在这一领域继续探索的决心。
本文转自
http://bbs.clzg.cn/viewthread.php?tid=11637