本文由学者史蒂文·豪斯曼、奥沙尼·塞尼维拉特、于晨等联合发表
主要内容:
网络上食谱和其他食品信息的快速增长为饮食相关知识的知识图谱提供了进一步的发展机遇。目前,有几个与食物相关的本体论,但类型单一且相互无联系。该图谱面向想要健康饮食的人群,会包括每天的食物和食谱以及信息来源。我们使用基于语义的提取—转换—加载过程,利用本体论和社区术语构建食品知识,并链接到相关食品和营养资源。这些资源的链接是使用词法相似度和字符匹配技术来查找数据集之间的非完美匹配。系统提供有用的食物建议,促进更健康的生活方式。
目前现状:
推荐的膳食指南应用的障碍之一是个性化指南,需要观察热量,脂肪,盐和糖的摄入量等,还需要建议个人食用各种营养丰富的食物。一个解决方法就是提供智能自动的方案推荐食物。尽管食物推荐对人的生活很重要,但与其他领域相比,研究仍然不足,目前只涉及语义学。
数据采集
从多个来源收集和集成数据带来的一致性、准确性和完整性的挑战:
- 无效数据—部分文本数据包含在基于RDF的图谱中是非法字符,需要转义。而转义本身会给实体识别和解决造成问题;
- 数据不完整—缺少原料或提供非标准的计量单位营养数据可能不完整。
- 模糊实体—许多成分很难联系一个特定食品项目。
- 额外信息—成分有时会有复杂单位或不必要信息。
主要数据来源:
菜谱、配料营养成分和组织配料的食品本体,使用Ontofox从本体提取术语和公理。
菜谱:在线食谱网站允许用户浏览和分享食谱。
营养物质:使用美国农业部的国家营养标准参考数据库
食物本体:菜谱列表和营养表提供了数百万和数千个实体的大量信息,但缺乏意义。
图谱的构建
包括具有属性和实体资源,资源之间的关系及用于表达有关资源的元数据的注释资源。完整图谱包含几个关键部分:
&#