数据保存在SQL Server 2005中。在我看来,语料库和知识库的界限是模糊的,所以如果我的文章提到了语料库而没有用知识库(或反过来),请不要较真。
语料库/知识库的组成:北京大学共享的10万余条词汇;知网数据;2007年3月到5月底的450余篇新闻;语义分类体系;对象规则;对象实例。
语义分类体系:以973语义分类体系为基础,进行了扩充。体系是以树形结构构建的,树中的节点名称均摘自对应词性表中的词,一般是名词表。
另外,对于词汇,设计了对应词性的近义、反义,词的拼音和褒贬属性等数据库表和插入的接口,只是苦于工作量大没有相应的数据。
语料库/知识库的组成:北京大学共享的10万余条词汇;知网数据;2007年3月到5月底的450余篇新闻;语义分类体系;对象规则;对象实例。
语义分类体系:以973语义分类体系为基础,进行了扩充。体系是以树形结构构建的,树中的节点名称均摘自对应词性表中的词,一般是名词表。
另外,对于词汇,设计了对应词性的近义、反义,词的拼音和褒贬属性等数据库表和插入的接口,只是苦于工作量大没有相应的数据。