基于携程游记的出行领域顺承事件图谱项目

该项目从携程出行攻略中抽取50W篇游记,构建顺承事件图谱。通过依存句法和顺承模式,提取谓词性短语,形成事件节点326781个,顺承事件对543580条。展示了不同类型的子图谱,如去丽江、飞机、火车路线和订酒店等。目前存在的问题是噪音和依赖关系的准确性,未来有提升空间。
摘要由CSDN通过智能技术生成

EvolutionaryEventGraph

项目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建.

项目来源

目前,以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用.
本项目将从出行领域展开进行实验.

项目构成

本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:
news_spider:基于scrapy的游记采集脚本
event_graph:基于依存句法与顺承模式的顺承事件抽取脚
image:游记顺承事件图谱效果图

一 出行领域语料的获取

  1. 语料来源:携程出行攻略

  2. 时间范围:2018年7月14日之前

  3. 采集方式:使用scrapy编写爬虫脚本进行抓取

  4. 采集规模:共采集505767篇,量级50W

  5. 采集脚本目录:news_spider/travelspider

  6. 语料举例:

         107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】
         107331 彩云之南—云上的蜜月之旅 - 丽江
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值