知识图谱 概念与技术
肖仰华等编著 中国工信出版集团 电子工业出版社
第三章 词汇挖掘与实体识别
知识图谱中的实体识别基本思路: 当一个词汇在某个上下文表达的是某个预定义概念时,则是一个实体。 例如“刘德华是中国香港男歌手” 中“刘德华”属于“人物”
等价关系、等级关系、相关关系
等价关系:简写等
等级关系:子类,细分等
相关关系:上下位关系、索引关系等 (例如“复旦大学 ”和“985院校“为上下位关系
短语抽取
短语:描述一个完整、不可分割的语义单元
短语质量评估:频率、一致性、信息量、完整性
无监督短语抽取:
语料-> 候选短语生成(n gram, 卡阈值过滤)-> 统计特征计算(例如 tfidf、PMI、左邻字熵和右邻字熵等)-> 质量评分(特征值融合,家全球和等)-> 排序输出