第二届百度&西安交通大学大数据竞赛

赛题描述:

http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2


解题思路:

需要识别的实体是主语或者宾语,而主语宾语左右两边的词都是有固定词性。这里没采用分词工具,就直接提取训练数据中核心实体两旁的文字。如:

        遵义会议旧址,主要指召开遵义会议的那座小楼。

         遵义会议旧址 右边是:   ,主

         为保证前后均有标签,向前补充特殊字符(补充几个,由提取长度而定)  ︽︽遵义会议旧址,主要指召开遵义会议的那座小楼。   则 左边是:  ︽︽

         对训练数据遍历,提取所有标签(如:︽︽, ,主)。并统计出现的总次数A,及正确匹配的次数T。标签优先级设定为:T/(A+N)(N由自己设定,防止在训练集中仅出现一次,且刚好正确的标签优先级过高)。

         1.遍历测试数据,按标签优先级顺序匹配文本,提取核心实体。

         2.按标签优先级顺序匹配上一步生成的核心实体,对核心实心进一步提取,排除部分标签优先级顺序错误,及核心实体两边多重标签的影响。

         3.对上一步识别的核心实体过滤,筛选出不包含停用词,不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历,如果包含关键词,则关键词作为该句的核心实体。降低所提取标签种类过少的影响。

         4.对上一步识别的核心实体遍历,对包含停用词等条件的核心实体用长度更小的标签匹配,修改核心实体。

         5.对上一步识别的核心实体过滤,筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件,对错误识别的句子重新用标签匹配,生成核心实体。


源码:

https://github.com/3ZY/baidu_word_Recognizer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值