EvolutionaryEventGraph
项目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建.
项目来源
目前,以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用.
本项目将从出行领域展开进行实验.
项目构成
本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:
news_spider:基于scrapy的游记采集脚本
event_graph:基于依存句法与顺承模式的顺承事件抽取脚
image:游记顺承事件图谱效果图
一 出行领域语料的获取
-
语料来源:携程出行攻略
-
时间范围:2018年7月14日之前
-
采集方式:使用scrapy编写爬虫脚本进行抓取
-
采集规模:共采集505767篇,量级50W
-
采集脚本目录:news_spider/travelspider
-
语料举例:
107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】 107331 彩云之南—云上的蜜月之旅 - 丽江