第二届百度&西安交通大学大数据竞赛

原创 2016年08月31日 10:49:29

赛题描述:

http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2


解题思路:

需要识别的实体是主语或者宾语,而主语宾语左右两边的词都是有固定词性。这里没采用分词工具,就直接提取训练数据中核心实体两旁的文字。如:

        遵义会议旧址,主要指召开遵义会议的那座小楼。

         遵义会议旧址 右边是:   ,主

         为保证前后均有标签,向前补充特殊字符(补充几个,由提取长度而定)  ︽︽遵义会议旧址,主要指召开遵义会议的那座小楼。   则 左边是:  ︽︽

         对训练数据遍历,提取所有标签(如:︽︽, ,主)。并统计出现的总次数A,及正确匹配的次数T。标签优先级设定为:T/(A+N)(N由自己设定,防止在训练集中仅出现一次,且刚好正确的标签优先级过高)。

         1.遍历测试数据,按标签优先级顺序匹配文本,提取核心实体。

         2.按标签优先级顺序匹配上一步生成的核心实体,对核心实心进一步提取,排除部分标签优先级顺序错误,及核心实体两边多重标签的影响。

         3.对上一步识别的核心实体过滤,筛选出不包含停用词,不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历,如果包含关键词,则关键词作为该句的核心实体。降低所提取标签种类过少的影响。

         4.对上一步识别的核心实体遍历,对包含停用词等条件的核心实体用长度更小的标签匹配,修改核心实体。

         5.对上一步识别的核心实体过滤,筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件,对错误识别的句子重新用标签匹配,生成核心实体。


源码:

https://github.com/3ZY/baidu_word_Recognizer

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

C++ MOOC 西安交通大学 中国大学生MOOC网 期末考试

C++MOOC 期末考试 西安交通大学 1. 行程编码(20分) 题目内容: 输入一段由英文字母组成的文字,将这段文字的前面一半逆序(当文字长度为奇数时,前一半的长度是stringlengt...

我的求职历程总结-计算机类(西安交通大学学生)

上周终于把三方寄出去了,从去年9月开始找工作,现在终于算是告一段落。借着放假的机会,整理下自己找工作的历程,也算是一些心得体会。希望对下一届的找工作的同学有所帮助。也给一个月后的答辩攒RP吧。 本人软...

西安交通大学计算机考试

  • 2016-03-12 16:56
  • 3.67MB
  • 下载

华东交通大学2013年ACM“双基”程序设计竞赛

华东交通大学2013年ACM“双基”程序设计竞赛 最终排名:http://acm.hdu.edu.cn/diy/contest_ranklist.php?cid=20955&page=1 华东交...

第七届北京交通大学ACM程序设计竞赛网络预赛二

没人陪我玩好无聊=.= 让我拿了1,2血....... 都是切了第一套不来第二套了么=.= A 貌似这个事训练指南上的uva例题改编 http://uva.onlinejudge.org/i...
  • ronnoc
  • ronnoc
  • 2013-04-06 22:12
  • 1127
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)