非结构化信息 指信息的形式相对不固定,常常是各种格式的文件。它是相对结构化信息而言的,从宏观上看也是结构化信息的一种形式。诸如电子文档、电子邮件、网页、视频文件、多媒体等。
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。
结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理。无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料 、缩微胶片等。这些资源中拥有大量的有价值的信息。这类非结构化信息正以成倍的速度增长。
另一种定义:
结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。
非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(Rich MediaContent):如声音、影片、图形等。